Co do $ @! jest hadoop?

2025

Spisu treści:

Skąd się wziął Hadoop?
Jak działa Hadoop?
Co robi Hadoop?

Wszyscy mówią o Hadoop, nowej, gorącej technologii, która jest bardzo ceniona przez programistów i może po prostu zmienić świat (ponownie). Ale w ogóle co to jest? Czy to jest język programowania? Baza danych? System przetwarzania? Przytulna indyjska herbata?

Ogólna odpowiedź: Hadoop to wszystko (z wyjątkiem przytulnej herbaty) i nie tylko. Jest to biblioteka oprogramowania, która zapewnia platformę programistyczną do taniego, użytecznego przetwarzania innego nowoczesnego modnego hasła: big data.

Skąd się wziął Hadoop?

Apache Hadoop jest częścią projektu Foundation od Apache Software Foundation, organizacji non-profit, której misją jest „dostarczanie oprogramowania dla dobra publicznego”. W związku z tym biblioteka Hadoop jest bezpłatnym oprogramowaniem typu open source dostępnym dla wszystkich programistów.

Technologia leżąca u podstaw Hadoop została wynaleziona przez Google. Na początku niezbyt gigantyczna wyszukiwarka potrzebowała sposobu na zindeksowanie ogromnych ilości danych, które gromadzili z Internetu, i przekształcenia ich w znaczące, odpowiednie wyniki dla użytkowników. Ponieważ na rynku nie ma nic, co mogłoby spełnić ich wymagania, Google zbudowało własną platformę.

Te innowacje zostały wydane w ramach projektu open source o nazwie Nutch, który Hadoop wykorzystał później jako podstawę. Zasadniczo Hadoop stosuje moc Google do dużych zbiorów danych w sposób przystępny dla firm każdej wielkości.

Jak działa Hadoop?

Jak wspomniano wcześniej, Hadoop to nie jedna rzecz - to wiele rzeczy. Biblioteka oprogramowania, którą jest Hadoop, składa się z czterech podstawowych części (modułów) i szeregu dodatkowych rozwiązań (takich jak bazy danych i języki programowania), które zwiększają jego wykorzystanie w świecie rzeczywistym. Cztery moduły to:

Hadoop Common: Jest to zbiór wspólnych narzędzi (wspólnej biblioteki), który obsługuje moduły Hadoop.

Hadoop Distributed File System (HDFS): Solidny rozproszony system plików bez ograniczeń w zakresie przechowywanych danych (co oznacza, że dane mogą być ustrukturyzowane lub nieustrukturyzowane i pozbawione schematów, w których wiele DFS przechowuje tylko dane ustrukturyzowane), który zapewnia szybki przepływ z redundancją ( HDFS pozwala na przechowywanie danych na wielu komputerach - więc jeśli jeden komputer ulegnie awarii, dostępność jest utrzymywana przez inne komputery).

Hadoop YARN: Ta struktura jest odpowiedzialna za planowanie zadań i zarządzanie zasobami klastra; zapewnia to, że dane są wystarczająco rozłożone na wiele komputerów, aby utrzymać redundancję. YARN to moduł, dzięki któremu Hadoop jest niedrogim i opłacalnym sposobem przetwarzania dużych zbiorów danych.

Hadoop MapReduce: ten oparty na technologii YARN system oparty na technologii Google wykonuje równoległe przetwarzanie dużych zbiorów danych (ustrukturyzowanych i nieustrukturyzowanych). MapReduce można również znaleźć w większości współczesnych platform przetwarzania dużych zbiorów danych, w tym baz danych MPP i NoSQL.

Wszystkie te moduły współpracujące ze sobą generują rozproszone przetwarzanie dużych zestawów danych. Struktura Hadoop wykorzystuje proste modele programowania, które są replikowane między klastrami komputerów, co oznacza, że system można skalować z pojedynczych serwerów na tysiące komputerów w celu zwiększenia mocy przetwarzania, zamiast polegać wyłącznie na sprzęcie.

Sprzęt, który jest w stanie poradzić sobie z ilością mocy obliczeniowej wymaganej do pracy z dużymi danymi, jest, delikatnie mówiąc, drogi. To jest prawdziwa innowacja Hadoop: zdolność do rozkładania ogromnej ilości mocy obliczeniowej na wielu, mniejszych komputerach, każda z własnym zlokalizowanym obliczeniem i pamięcią, wraz z wbudowaną redundancją na poziomie aplikacji, aby zapobiec awariom.

Co robi Hadoop?

Mówiąc prosto, Hadoop sprawia, że duże zbiory danych są dostępne i użyteczne dla każdego.

Przed Hadoop firmy korzystające z dużych zbiorów danych korzystały głównie z relacyjnych baz danych i hurtowni danych dla przedsiębiorstw (które wykorzystują ogromne ilości drogiego sprzętu). Chociaż narzędzia te doskonale nadają się do przetwarzania danych strukturalnych - czyli danych już posortowanych i zorganizowanych w zarządzalny sposób - możliwości przetwarzania danych nieuporządkowanych były bardzo ograniczone, tak bardzo, że praktycznie nie istniały. Aby były użyteczne, dane musiały być najpierw ustrukturyzowane, aby dobrze pasowały do tabel.

Struktura Hadoop zmienia to wymaganie i robi to tanio. Dzięki Hadoop ogromne ilości danych od 10 do 100 gigabajtów i więcej, zarówno ustrukturyzowanych, jak i nieustrukturyzowanych, można przetwarzać przy użyciu zwykłych serwerów (towarowych).

Hadoop oferuje potencjalne aplikacje Big Data dla firm każdej wielkości, w każdej branży. Struktura open source pozwala firmom finansowym na tworzenie wyrafinowanych modeli oceny portfela i analizy ryzyka, a sprzedawców internetowych na precyzyjne dostosowywanie wyników wyszukiwania i kierowanie klientów w stronę produktów, które chętniej kupią.

Dzięki Hadoop możliwości są naprawdę nieograniczone.

Co do $ @! jest hadoop?

Spisu treści:

Skąd się wziął Hadoop?

Jak działa Hadoop?

Co robi Hadoop?

Wybór redaktorów

Co to jest rozszerzona grafika (xga)? - definicja z techopedia

Co jest rozszerzalne? - definicja z techopedia

Co to jest profesjonalista z certyfikatem Ubuntu? - definicja z techopedia

Co to jest język opisu formularzy rozszerzalnych (xfdl)? - definicja z techopedia

Wybór redaktorów

Co to jest łączność sieciowa? - definicja z techopedia

Co to są protokoły sieciowe? - definicja z techopedia

Co to jest komponentowy model obiektowy? - definicja z techopedia

Co to jest oparty na sieci system wykrywania włamań (NID)? - definicja z techopedia

Wybór redaktorów

Rosnąca wojna cyberbezpieczeństwa w branży opieki zdrowotnej

Ochrona zdrowia to wyzwanie bezpieczeństwa

Ludzki element transformacji cyfrowej: zaangażowanie pracowników

Profesjonalny przewodnik po sieciach korporacyjnych

Wybór redaktorów

Co to jest smok Comodo? - definicja z techopedia

Co to jest chmura w puszce? - definicja z techopedia

Co to jest stożek? - definicja z techopedia

Co to jest bpm zorientowane na integrację? - definicja z techopedia

Wybór redaktorów

Co to jest sowa? - definicja z techopedia

Co to jest interfejs jdbc? - definicja z techopedia

Co to jest system biometryczny? - definicja z techopedia

Co to są dane biometryczne? - definicja z techopedia

Popularne kategorie