Spisu treści:
Hadoop to świetne miejsce do odciążania danych do przetwarzania analitycznego lub modelowania większych woluminów jednego źródła danych, które nie są możliwe w przypadku istniejących systemów. Ponieważ jednak firmy dostarczają dane z wielu źródeł do Hadoop, rośnie zapotrzebowanie na analizę danych z różnych źródeł, co może być niezwykle trudne do osiągnięcia. Ten post jest pierwszym z trzyczęściowej serii, która wyjaśnia problemy, z jakimi borykają się organizacje, gdy próbują analizować różne źródła danych i typy w ramach Hadoop oraz sposoby rozwiązywania tych problemów. Dzisiejszy post koncentruje się na problemach pojawiających się podczas łączenia wielu źródeł wewnętrznych. Kolejne dwa posty wyjaśniają, dlaczego problemy te stają się bardziej złożone, gdy dodawane są zewnętrzne źródła danych, oraz w jaki sposób nowe podejścia pomagają je rozwiązać.
Dane z różnych źródeł Trudno połączyć i zmapować
Dane z różnych źródeł mają różne struktury, które utrudniają łączenie i mapowanie typów danych, nawet danych ze źródeł wewnętrznych. Łączenie danych może być szczególnie trudne, jeśli klienci mają wiele numerów kont lub organizacja nabyła lub połączyła się z innymi firmami. W ciągu ostatnich kilku lat niektóre organizacje próbowały wykorzystywać aplikacje do wykrywania danych lub analizy danych do analizowania danych z wielu źródeł przechowywanych w Hadoop. Takie podejście jest problematyczne, ponieważ wiąże się z dużą ilością domysłów: użytkownicy muszą zdecydować, których kluczy obcych użyć do połączenia różnych źródeł danych i przyjąć założenia podczas tworzenia nakładek modelu danych. Domysły te są trudne do przetestowania i często niepoprawne po zastosowaniu na dużą skalę, co prowadzi do błędnej analizy danych i nieufności do źródeł.
Eksperci Hadoop próbują scalić dane razem
Dlatego organizacje, które chcą analizować dane w różnych źródłach danych, zwróciły się o zatrudnienie ekspertów Hadoop do stworzenia niestandardowych skryptów specyficznych dla źródła w celu scalenia zestawów danych. Ci eksperci Hadoop zwykle nie są ekspertami w zakresie integracji danych ani rozwiązywania problemów z podmiotami, ale robią wszystko, co mogą, aby zaspokoić bezpośrednie potrzeby organizacji. Eksperci ci zwykle używają Pig lub Java do pisania twardych i szybkich reguł, które określają, jak połączyć ustrukturyzowane dane z określonych źródeł, np. Dopasowanie rekordów na podstawie numeru konta. Po napisaniu skryptu dla dwóch źródeł, jeśli konieczne jest dodanie trzeciego źródła, pierwszy skrypt musi zostać wyrzucony, a nowy skrypt musi łączyć trzy określone źródła. To samo dzieje się, jeśli zostanie dodane inne źródło i tak dalej. To podejście jest nie tylko nieefektywne, ale również kończy się niepowodzeniem, gdy jest stosowane na dużą skalę, źle obsługuje przypadki na krawędziach, może powodować powstanie dużej liczby zduplikowanych rekordów i często łączy wiele rekordów, których nie należy łączyć.