Dom Trendy 7 rzeczy, które warto wiedzieć o hadoop

7 rzeczy, które warto wiedzieć o hadoop

Spisu treści:

Anonim

Co to jest Hadoop? To żółty zabawkowy słoń. Nie tego się spodziewałeś? A co powiesz na to: Doug Cutting - współtwórca projektu oprogramowania typu open source - pożyczył imię od syna, który nazwał swojego zabawkowego słonia Hadoop. W skrócie, Hadoop to platforma programowa opracowana przez Apache Software Foundation, która służy do opracowywania intensywnych danych rozproszonych. Jest to kluczowy element w innym czytniku modnych słów, który nigdy nie wydaje się mieć dość: dużych zbiorów danych. Oto siedem rzeczy, które powinieneś wiedzieć o tym unikalnym, darmowo licencjonowanym oprogramowaniu.

Jak zaczął się Hadoop?

Dwanaście lat temu Google zbudował platformę do manipulowania ogromnymi ilościami danych, które gromadził. Podobnie jak firma często, Google udostępnił swój projekt publicznie w formie dwóch dokumentów: Google File System i MapReduce.


W tym samym czasie Doug Cutting i Mike Cafarella pracowali nad nową wyszukiwarką Nutch. Obaj zmagali się także z tym, jak obsługiwać duże ilości danych. Potem dwaj badacze dowiedzieli się o artykułach Google. To szczęśliwe skrzyżowanie zmieniło wszystko, wprowadzając Cutting i Cafarella do lepszego systemu plików i sposób śledzenia danych, co ostatecznie doprowadziło do stworzenia Hadoop.

Co jest takiego ważnego w Hadoop?

Dzisiaj zbieranie danych jest łatwiejsze niż kiedykolwiek. Posiadanie wszystkich tych danych stwarza wiele możliwości, ale istnieją również wyzwania:

  • Ogromne ilości danych wymagają nowych metod przetwarzania.
  • Przechwytywane dane są w nieustrukturyzowanym formacie.
Aby sprostać wyzwaniom związanym z manipulowaniem ogromnymi ilościami nieuporządkowanych danych, firma Cutting i Cafarella opracowali dwuczęściowe rozwiązanie. Aby rozwiązać problem ilości danych, Hadoop wykorzystuje środowisko rozproszone - sieć serwerów towarowych - tworząc równoległy klaster przetwarzania, który zapewnia większą moc obliczeniową dla przypisanego zadania.


Następnie musieli zmierzyć się z nieuporządkowanymi danymi lub danymi w formatach, których standardowe systemy relacyjnych baz danych nie były w stanie obsłużyć. Firma Cutting i Cafarella zaprojektowały Hadoop do pracy z dowolnym rodzajem danych: uporządkowanym, nieustrukturyzowanym, obrazami, plikami audio, a nawet tekstem. W białej księdze Cloudera (integrator Hadoop) wyjaśniono, dlaczego jest to ważne:

    „Dzięki wykorzystaniu wszystkich danych, nie tylko zawartości bazy danych, Hadoop pozwala odkryć ukryte relacje i ujawnia odpowiedzi, które zawsze były poza zasięgiem. Możesz zacząć podejmować więcej decyzji na podstawie twardych danych zamiast przeczuć i wyglądać w kompletnych zestawach danych, nie tylko próbki i podsumowania. ”

Co to jest schemat przy odczycie?

Jak wspomniano wcześniej, jedną z zalet Hadoop jest jego zdolność do obsługi nieustrukturyzowanych danych. W pewnym sensie jest to „kopanie puszki w dół drogi”. Ostatecznie dane potrzebują jakiejś struktury w celu ich analizy.


W tym momencie wchodzi w grę schemat odczytu. Schemat w trakcie odczytu to połączenie formatu, w jakim znajdują się dane, gdzie można je znaleźć (pamiętaj, że dane są rozproszone na kilku serwerach) i co należy zrobić z danymi - nie jest to proste zadanie. Mówi się, że manipulowanie danymi w systemie Hadoop wymaga umiejętności analityka biznesowego, statystyk i programisty Java. Niestety niewiele osób ma takie kwalifikacje.

Co to jest Hive?

Jeśli Hadoop miał odnieść sukces, praca z danymi musiała zostać uproszczona. Tak więc publiczność open-source zaczęła pracować i stworzyła Hive:

    „Hive zapewnia mechanizm do rzutowania struktury na te dane i przeszukiwania danych za pomocą języka podobnego do SQL o nazwie HiveQL. Jednocześnie język ten pozwala również tradycyjnym programistom map / redukować na podłączanie własnych niestandardowych maperów i reduktorów, gdy jest to niewygodne lub nieefektywne w wyrażaniu tej logiki w HiveQL. ”

Hive umożliwia najlepsze z obu światów: pracownicy bazy danych znający polecenia SQL mogą manipulować danymi, a programiści znający schemat procesu odczytu nadal mogą tworzyć niestandardowe zapytania.

Jakie dane analizuje Hadoop?

Analityka internetowa to pierwsza rzecz, jaka przychodzi na myśl, analiza dzienników sieciowych i ruchu internetowego w celu optymalizacji stron internetowych. Na przykład Facebook zdecydowanie zajmuje się analityką internetową, używając Hadoop do sortowania terabajtów danych gromadzonych przez firmę.


Firmy używają klastrów Hadoop do przeprowadzania analizy ryzyka, wykrywania oszustw i segmentacji klientów. Firmy użyteczności publicznej używają Hadoop do analizy danych czujników z ich sieci elektrycznej, co pozwala im zoptymalizować produkcję energii elektrycznej. Duże firmy, takie jak Target, 3M i Medtronics, wykorzystują Hadoop do optymalizacji dystrybucji produktów, oceny ryzyka biznesowego i segmentacji klientów.


Uniwersytety są również inwestowane w Hadoop. Brad Rubin, profesor nadzwyczajny na University of St. Thomas Graduate Programs in Software, wspomniał, że jego wiedza specjalistyczna w Hadoop pomaga w sortowaniu dużej ilości danych zebranych przez grupy badawcze na uniwersytecie.

Czy możesz podać prawdziwy przykład Hadoop?

Jednym z bardziej znanych przykładów jest TimesMachine. New York Times ma kolekcję całostronicowych obrazów TIFF z gazety, powiązanych metadanych i tekstu artykułu z lat 1851–1922, które stanowią terabajty danych. Derek Gottfrid z NYT, wykorzystujący system EC2 / S3 / Hadoop i specjalistyczny kod:

    „Połknięto 405 000 bardzo dużych obrazów TIFF, 3, 3 miliona artykułów w SGML i 405 000 plików xml mapujących artykuły do ​​prostokątnych regionów w TIFF. Dane te zostały przekonwertowane na bardziej przyjazne dla sieci 810 000 obrazów PNG (miniatury i pełne obrazy) oraz 405 000 plików JavaScript. „

Korzystając z serwerów w chmurze Amazon Web Services, Gottfrid wspomniał, że byli w stanie przetworzyć wszystkie dane wymagane dla TimesMachine w mniej niż 36 godzin.

Czy Hadoop jest już przestarzały, czy po prostu zmienia się?

Hadoop istnieje już od ponad dekady. Wiele osób twierdzi, że jest przestarzałe. Jeden ekspert, dr David Rico, powiedział: „Produkty IT są krótkotrwałe. W psich latach produkty Google mają około 70, podczas gdy Hadoop ma 56 lat”.


Może być trochę prawdy w tym, co mówi Rico. Wygląda na to, że Hadoop przechodzi gruntowny przegląd. Aby dowiedzieć się więcej na ten temat, Rubin zaprosił mnie na spotkanie grupy użytkowników Twin Cities Hadoop, a tematem dyskusji było Wprowadzenie do YARN:

    „Apache Hadoop 2 zawiera nowy silnik MapReduce, który ma wiele zalet w stosunku do poprzedniej implementacji, w tym lepszą skalowalność i wykorzystanie zasobów. Nowa implementacja oparta jest na ogólnym systemie zarządzania zasobami do uruchamiania aplikacji rozproszonych o nazwie YARN”.
Hadoop zyskuje dużo szumu w bazach danych i kręgach zarządzania treścią, ale wciąż jest wiele pytań i tego, jak najlepiej go wykorzystać. To tylko kilka. Jeśli masz więcej, wyślij je nam. Odpowiemy na najlepsze na Techopedia.com.

7 rzeczy, które warto wiedzieć o hadoop