Analizy Hadoop: nie tak łatwe w wielu źródłach danych

2025

Spisu treści:

Dane z różnych źródeł Trudno połączyć i zmapować
Eksperci Hadoop próbują scalić dane razem

Hadoop to świetne miejsce do odciążania danych do przetwarzania analitycznego lub modelowania większych woluminów jednego źródła danych, które nie są możliwe w przypadku istniejących systemów. Ponieważ jednak firmy dostarczają dane z wielu źródeł do Hadoop, rośnie zapotrzebowanie na analizę danych z różnych źródeł, co może być niezwykle trudne do osiągnięcia. Ten post jest pierwszym z trzyczęściowej serii, która wyjaśnia problemy, z jakimi borykają się organizacje, gdy próbują analizować różne źródła danych i typy w ramach Hadoop oraz sposoby rozwiązywania tych problemów. Dzisiejszy post koncentruje się na problemach pojawiających się podczas łączenia wielu źródeł wewnętrznych. Kolejne dwa posty wyjaśniają, dlaczego problemy te stają się bardziej złożone, gdy dodawane są zewnętrzne źródła danych, oraz w jaki sposób nowe podejścia pomagają je rozwiązać.

Dane z różnych źródeł Trudno połączyć i zmapować

Dane z różnych źródeł mają różne struktury, które utrudniają łączenie i mapowanie typów danych, nawet danych ze źródeł wewnętrznych. Łączenie danych może być szczególnie trudne, jeśli klienci mają wiele numerów kont lub organizacja nabyła lub połączyła się z innymi firmami. W ciągu ostatnich kilku lat niektóre organizacje próbowały wykorzystywać aplikacje do wykrywania danych lub analizy danych do analizowania danych z wielu źródeł przechowywanych w Hadoop. Takie podejście jest problematyczne, ponieważ wiąże się z dużą ilością domysłów: użytkownicy muszą zdecydować, których kluczy obcych użyć do połączenia różnych źródeł danych i przyjąć założenia podczas tworzenia nakładek modelu danych. Domysły te są trudne do przetestowania i często niepoprawne po zastosowaniu na dużą skalę, co prowadzi do błędnej analizy danych i nieufności do źródeł.

Eksperci Hadoop próbują scalić dane razem

Dlatego organizacje, które chcą analizować dane w różnych źródłach danych, zwróciły się o zatrudnienie ekspertów Hadoop do stworzenia niestandardowych skryptów specyficznych dla źródła w celu scalenia zestawów danych. Ci eksperci Hadoop zwykle nie są ekspertami w zakresie integracji danych ani rozwiązywania problemów z podmiotami, ale robią wszystko, co mogą, aby zaspokoić bezpośrednie potrzeby organizacji. Eksperci ci zwykle używają Pig lub Java do pisania twardych i szybkich reguł, które określają, jak połączyć ustrukturyzowane dane z określonych źródeł, np. Dopasowanie rekordów na podstawie numeru konta. Po napisaniu skryptu dla dwóch źródeł, jeśli konieczne jest dodanie trzeciego źródła, pierwszy skrypt musi zostać wyrzucony, a nowy skrypt musi łączyć trzy określone źródła. To samo dzieje się, jeśli zostanie dodane inne źródło i tak dalej. To podejście jest nie tylko nieefektywne, ale również kończy się niepowodzeniem, gdy jest stosowane na dużą skalę, źle obsługuje przypadki na krawędziach, może powodować powstanie dużej liczby zduplikowanych rekordów i często łączy wiele rekordów, których nie należy łączyć.

Analizy Hadoop: nie tak łatwe w wielu źródłach danych

Spisu treści:

Dane z różnych źródeł Trudno połączyć i zmapować

Eksperci Hadoop próbują scalić dane razem

Więcej nie zawsze jest lepsze. w jaki sposób organizacje mogą zmniejszyć hałas w swoich danych, aby uzyskać ukierunkowane, dokładne analizy?

Co to jest platforma do zarządzania aplikacjami w wielu chmurach (wzmacniacz w wielu chmurach)? - definicja z techopedia

Nie, boty do analizy danych w najbliższym czasie nie zamierzają ukraść twojej pracy

Wybór redaktorów

Co to jest przepustowość na żądanie (obligacja)? - definicja z techopedia

Co to jest kopia zapasowa migawki? - definicja z techopedia

Co to jest quattro pro? - definicja z techopedia

Co to jest Borland Quattro (Borqu)? - definicja z techopedia

Wybór redaktorów

Co to jest macierz hybrydowa? - definicja z techopedia

Co to jest wąskie gardło w przechowywaniu? - definicja z techopedia

Jaki jest maksymalny rozmiar segmentu (ms)? - definicja z techopedia

Co to jest miernik przepustowości? - definicja z techopedia

Wybór redaktorów

Co to jest światłowód wielomodowy? - definicja z techopedii

Co to jest kodowanie sieciowe? - definicja z techopedii

Co to jest utrata pakietów? - definicja z techopedia

Co to jest pobieranie progresywne? - definicja z techopedia

Wybór redaktorów

Co to jest urządzenie peryferyjne? - definicja z techopedia

Co to jest rurociąg? - definicja z techopedia

Co to jest system osobisty / 2 (ps / 2)? - definicja z techopedia

Co to jest v.34? - definicja z techopedia

Wybór redaktorów

Co to jest mobilna optymalizacja wyszukiwarek (mobilne SEO)? - definicja z techopedia

Co to jest Reddit? - definicja z techopedia

Co to jest opinia? - definicja z techopedia

Co to jest opinia? - definicja z techopedia

Popularne kategorie