Dom It-Business Dane duże i małe: gdzie jest prawdziwa wartość?

Dane duże i małe: gdzie jest prawdziwa wartość?

Spisu treści:

Anonim

Big data to ogólne słowo używane w odniesieniu do obsługi dużych ilości danych. Wszyscy rozumiemy, że im większa ilość danych, tym bardziej staje się ona złożona. Tradycyjne rozwiązania baz danych często nie zarządzają właściwie dużymi ilościami danych ze względu na ich złożoność i rozmiar. Dlatego zarządzanie dużymi ilościami danych i wydobywanie prawdziwych informacji jest trudnym zadaniem. Ta sama koncepcja „wartości” ma również zastosowanie do małych danych.

Jak wykorzystywane są duże zbiory danych

Konwencjonalne rozwiązania baz danych oparte na koncepcji RDBMS mogą bardzo dobrze zarządzać danymi transakcyjnymi i są szeroko stosowane w różnych aplikacjach. Ale jeśli chodzi o obsługę dużego zestawu danych (dane zarchiwizowane i znajdujące się w terabajtach lub petabajtach), te rozwiązania baz danych często zawodzą. Te zestawy danych są zbyt duże i przez większość czasu nie pasują do architektury tradycyjnych baz danych. Obecnie duże zbiory danych stały się opłacalnym podejściem do obsługi większych zestawów danych. Z organizacyjnego punktu widzenia wykorzystanie dużych zbiorów danych można podzielić na następujące kategorie, w których rezyduje rzeczywista wartość dużych zbiorów danych:

  • Zastosowanie analityczne

    Analitycy dużych zbiorów danych ujawnili wiele ważnych ukrytych aspektów danych, których przetwarzanie jest zbyt kosztowne. Na przykład, jeśli musimy sprawdzić zainteresowanie uczniów trendami w odniesieniu do określonego nowego tematu, możemy to zrobić, analizując dzienne dane dotyczące obecności oraz inne fakty społeczne i geograficzne. Fakty te są przechwytywane w bazie danych. Jeśli nie możemy uzyskać dostępu do tych danych w efektywny sposób, nie możemy zobaczyć wyników.

  • Włącz nowe produkty

    W niedawnej przeszłości wiele nowych firm internetowych, takich jak Facebook, zaczęło wykorzystywać duże zbiory danych jako rozwiązanie do wprowadzania nowych produktów. Wszyscy wiemy, jak popularny jest Facebook - z powodzeniem przygotował wysoce wydajny interfejs użytkownika wykorzystujący duże zbiory danych.

Gdzie jest prawdziwa wartość?

Różne rozwiązania Big Data różnią się podejściem, w jakim przechowują dane, ale ostatecznie wszystkie przechowują dane w płaskiej strukturze plików. Ogólnie rzecz biorąc, Hadoop składa się z systemu plików i niektórych abstrakcji danych na poziomie systemu operacyjnego. Obejmuje to silnik MapReduce i rozproszony system plików Hadoop (HDFS). Prosty klaster Hadoop zawiera jeden węzeł główny i kilka węzłów roboczych. Węzeł główny składa się z następujących elementów:

  • Task Tracker
  • Job Tracker
  • Węzeł nazw
  • Węzeł danych
Węzeł roboczy składa się z następujących elementów:
  • Task Tracker
  • Węzeł danych

Niektóre implementacje mają tylko węzeł danych. Węzeł danych to rzeczywisty obszar, w którym znajdują się dane. HDFS przechowuje duże pliki (od terabajtów do petabajtów) rozproszone na wielu komputerach. Wiarygodność danych w każdym węźle osiąga się poprzez replikację danych na wszystkich hostach. W ten sposób dane są dostępne, nawet gdy jeden z węzłów jest wyłączony. Pomaga to w szybszym reagowaniu na zapytania. Ta koncepcja jest bardzo przydatna w przypadku dużych aplikacji, takich jak Facebook. Jako użytkownik, na przykład, niemal natychmiast otrzymujemy odpowiedź na nasze zapytanie czatu. Rozważ scenariusz, w którym użytkownik musi długo czekać na czacie. Jeśli wiadomość i następna odpowiedź nie zostaną dostarczone natychmiast, to ile osób faktycznie skorzysta z tych narzędzi do czatowania?

Wracając do implementacji na Facebooku, jeśli dane nie zostaną zreplikowane między klastrami, nie będzie możliwe wprowadzenie atrakcyjnej implementacji. Hadoop rozprowadza dane między komputerami w większym klastrze i przechowuje pliki jako sekwencję bloków. Te bloki mają identyczny rozmiar, z wyjątkiem ostatniego bloku. Rozmiar bloku i współczynnik replikacji można dostosować do potrzeb. Pliki w HDFS ściśle przestrzegają zasady jednorazowego zapisu i dlatego mogą być zapisywane lub edytowane tylko przez jednego użytkownika na raz. Decyzje dotyczące replikacji bloków są podejmowane przez węzeł nazwy. Węzeł nazwy odbiera raporty i odpowiedzi impulsowe z każdego z węzłów danych. Odpowiedzi impulsowe zapewniają dostępność odpowiedniego węzła danych. Raport zawiera szczegóły bloków w węźle danych.


Kolejna implementacja dużych zbiorów danych, Cassandra, również wykorzystuje podobną koncepcję dystrybucji. Cassandra dystrybuuje dane na podstawie położenia geograficznego. Dlatego w Cassandrze dane są segregowane na podstawie położenia geograficznego wykorzystania danych.

Czasami małe dane mają większy (i mniej kosztowny) wpływ

Według Rufusa Pollocka z Open Foundation Foundation nie ma sensu tworzyć szumu wokół dużych zbiorów danych, podczas gdy małe dane wciąż są miejscem, gdzie leży prawdziwa wartość.


Jak sama nazwa wskazuje, małe dane to zbiór danych ukierunkowanych na większy zestaw danych. Małe dane mają na celu odwrócenie uwagi od wykorzystania danych, a także mają na celu przeciwdziałanie tendencji do przechodzenia na duże zbiory danych. Metoda małych danych pomaga w gromadzeniu danych w oparciu o określone wymagania przy mniejszym wysiłku. W rezultacie jest to bardziej wydajna praktyka biznesowa przy wdrażaniu analizy biznesowej.


U podstaw koncepcji małych danych leży biznes, który wymaga wyników wymagających dalszych działań. Wyniki te muszą zostać szybko pobrane, a następnie należy niezwłocznie wykonać kolejne działanie. W ten sposób możemy wyeliminować rodzaje systemów powszechnie stosowanych w analizie dużych zbiorów danych.


Ogólnie rzecz biorąc, jeśli weźmiemy pod uwagę niektóre konkretne systemy, które są wymagane do akwizycji dużych zbiorów danych, firma może zainwestować w skonfigurowanie dużej ilości pamięci do przechowywania serwerów, użyć zaawansowanych serwerów wysokiej klasy i najnowszych aplikacji do eksploracji danych do obsługi różnych bitów danych, w tym daty i godziny działań użytkownika, informacje demograficzne i inne informacje. Cały zestaw danych przenosi się do centralnej hurtowni danych, w której złożone algorytmy są używane do sortowania i przetwarzania danych do wyświetlenia w postaci szczegółowych raportów.


Wszyscy wiemy, że rozwiązania te przyniosły korzyści wielu przedsiębiorstwom pod względem skalowalności i dostępności; istnieją organizacje, które uznają, że przyjęcie tych metod wymaga znacznego wysiłku. Prawdą jest również, że w niektórych przypadkach podobne wyniki są osiągane przy użyciu mniej niezawodnej strategii eksploracji danych.


Małe dane umożliwiają organizacjom wycofanie się z obsesji na punkcie najnowszych i najnowszych technologii, które wspierają bardziej wyrafinowane procesy biznesowe. Firmy promujące małe dane twierdzą, że z biznesowego punktu widzenia ważne jest efektywne wykorzystywanie ich zasobów, aby do pewnego stopnia można było uniknąć nadmiernych wydatków na technologię.


Dużo rozmawialiśmy o rzeczywistości dużych zbiorów danych i małych danych, ale musimy zrozumieć, że wybór właściwej platformy (dużych zbiorów danych lub małych danych) do właściwego wykorzystania jest najważniejszą częścią całego ćwiczenia. I prawda jest taka, że ​​chociaż duże zbiory danych mogą przynieść wiele korzyści, nie zawsze jest to najlepsze.

Dane duże i małe: gdzie jest prawdziwa wartość?