Spisu treści:
- Mit: wszyscy wyprzedzają nas, jeśli chodzi o stosowanie dużych zbiorów danych.
- Mit: Mamy tak dużo danych; nie musimy się martwić każdą drobną wadą danych.
- Mit: technologia Big Data wyeliminuje potrzebę integracji danych.
- Mit: Korzystanie z hurtowni danych do zaawansowanej analizy jest bezcelowe.
- Mit: Jeziora danych zastąpią hurtownię danych.
- Big Data działa - nowe metody manipulacji danymi mogą nie działać
W maju 2014 r. Firma Forrester Research opublikowała dwa raporty wyciągające pewne wnioski na temat szumu wokół dużych zbiorów danych. Firma badawcza przeprowadziła ankietę wśród ponad 250 menedżerów ds. Marketingu i rozwoju biznesu. Według autorów raportu retoryka dużych zbiorów danych jest na najwyższym poziomie, a dostawcy technologii reklamują produkty, które wydają się nieprawdopodobne.
Gartner zgadza się z Forrester Research; znaczny szum wokół dużych zbiorów danych. W raporcie z września 2014 r. Gartner obala pięć największych mitów dotyczących danych, a analitycy Gartnera przedstawiają swoje opinie na temat tego, co źle zrozumiano na temat dużych zbiorów danych i ich manipulacji. Jakie są największe mity dużych zbiorów danych? Spójrzmy.
Mit: wszyscy wyprzedzają nas, jeśli chodzi o stosowanie dużych zbiorów danych.
Gartner twierdzi, że zainteresowanie dużymi zbiorami danych jest najwyższe w historii. Mimo to marne 13 procent ankietowanych ma działające systemy. Powód: większość firm musi jeszcze dowiedzieć się, jak wydobywać jakąkolwiek wartość z dużych repozytoriów danych. Tutaj ankieta Gartnera jest bardziej optymistyczna niż raport Forrester, który wykazał, że tylko 9 procent uczestników ankiety stwierdziło, że planuje wdrożenie technologii dużych zbiorów danych w przyszłym roku. (Big data ma wiele do zaoferowania. Dowiedz się więcej w 5 rzeczywistych problemach, które Big Data może rozwiązać.)Mit: Mamy tak dużo danych; nie musimy się martwić każdą drobną wadą danych.
Gartner martwi się o głupotę, którą ludzie mają: „Mamy tak wiele, to, co złe, nie będzie miało znaczenia”. Ted Friedman, wiceprezes i wybitny analityk w Gartner uważa, że to niewłaściwy sposób patrzenia na sytuację.
„W rzeczywistości, chociaż każda pojedyncza wada ma znacznie mniejszy wpływ na cały zestaw danych niż wtedy, gdy było mniej danych, jest więcej wad niż wcześniej, ponieważ jest więcej danych” - powiedział Friedman. „Dlatego ogólny wpływ złej jakości danych na cały zestaw danych pozostaje taki sam”.
Friedman dodaje kolejny powód do niepokoju. Przechwytywanie dużych zbiorów danych często obejmuje dane spoza firmy, które mają zatem nieznaną strukturę i pochodzenie. Zwiększa to prawdopodobieństwo błędów.
Mit: technologia Big Data wyeliminuje potrzebę integracji danych.
Istnieją dwie kluczowe strategie analizy danych, które można zastosować do dużych zbiorów danych: „schemat przy zapisie” lub „schemat przy odczycie”. Do niedawna jedyną zastosowaną metodą był schemat zapisu. Schemat odczytu jest bieżącym szaleństwem w zarządzaniu bazą danych. W przeciwieństwie do schematu przy zapisie, który wymaga formatu strukturalnego, dane są ładowane do baz danych w schemacie w trybie surowym. Następnie programiści - używając niestrukturalnych platform baz danych, takich jak Hadoop - naginają różne dane do użytecznego formatu. Schemat odczytu ma oczywiste zalety, ale, jak wspomina Gartner, integracja danych musi nastąpić w pewnym momencie.Mit: Korzystanie z hurtowni danych do zaawansowanej analizy jest bezcelowe.
Spędzanie czasu na tworzenie hurtowni danych wydaje się bezcelowe dla wielu menedżerów informacji, szczególnie gdy nowo przechwycone dane różnią się od danych w hurtowni danych. Jednak Gartner ponownie ostrzega, że nawet zaawansowane analizy danych będą wykorzystywać hurtownie danych i nowe dane, co oznacza, że integratorzy danych muszą:- Ulepsz nowe typy danych, aby były odpowiednie do analizy
- Zdecyduj, które dane są istotne i jaki poziom jakości danych jest potrzebny
- Określ sposób agregowania danych
- Zrozum, że zawężanie danych może nastąpić w miejscach innych niż hurtownia danych
Mit: Jeziora danych zastąpią hurtownię danych.
Jeziora danych są repozytoriami różnych danych, w przeciwieństwie do hurtowni danych, w których dane mają uporządkowany format. Utworzenie jeziora danych wymaga niewielkiego wysiłku (bez potrzeby formatowania danych) w porównaniu do hurtowni danych, dlatego jeziora danych są interesujące.
Gartner podkreśla, że posiadanie danych nie jest najważniejsze - chodzi o możliwość manipulowania przechwyconymi danymi w celu świadomego podejmowania decyzji. Ponadto problematyczne jest wykorzystanie (nieco niepotwierdzonych) jezior danych w celu ułatwienia podejmowania decyzji.
„Hurtownie danych mają już możliwość obsługi szerokiej gamy użytkowników w całej organizacji” - powiedział Nick Heudecker, dyrektor ds. Badań w Gartner. „Liderzy zarządzania informacją nie muszą czekać na nadejście jezior danych”. (Dowiedz się więcej o stosowaniu dużych zbiorów danych w 7 rzeczach, które musisz wiedzieć o dużych danych przed przyjęciem).
Big Data działa - nowe metody manipulacji danymi mogą nie działać
Powód, dla którego Gartner powiedział „największe mity danych” zamiast „mitów dużych danych”, staje się jasny po przeczytaniu raportu. Gartner nie jest nieufny wobec dużych zbiorów danych. Gartner jest nieufny wobec tych, którzy uważają, że nowsze metody manipulacji dużymi danymi są gotowe na „najwyższy czas”.