P:
Jaka jest różnica między big data a data mining?
ZA:Big data i data mining to dwie różne rzeczy. Oba dotyczą wykorzystania dużych zestawów danych do obsługi gromadzenia lub raportowania danych, które służą firmom lub innym odbiorcom. Jednak te dwa terminy są używane dla dwóch różnych elementów tego rodzaju operacji.
Big data to termin określający duży zestaw danych. Zestawy dużych danych to takie, które przerastają prosty rodzaj baz danych i architektur obsługi danych, które były używane we wcześniejszych czasach, kiedy duże zbiory danych były droższe i mniej wykonalne. Na przykład zestawy danych, które są zbyt duże, aby można je było łatwo obsługiwać w arkuszu kalkulacyjnym Microsoft Excel, można nazwać zestawami dużych zbiorów danych.
Eksploracja danych odnosi się do czynności polegającej na przeszukiwaniu dużych zbiorów danych w celu znalezienia odpowiednich lub istotnych informacji. Ten rodzaj aktywności jest naprawdę dobrym przykładem starego aksjomatu „szukania igły w stogu siana”. Chodzi o to, że firmy zbierają ogromne zbiory danych, które mogą być jednorodne lub zbierane automatycznie. Decydenci potrzebują dostępu do mniejszych, bardziej szczegółowych danych z tych dużych zestawów. Korzystają z eksploracji danych, aby odkryć informacje, które poinformują kierownictwo i pomogą wytyczyć kurs dla firmy.
Eksploracja danych może obejmować korzystanie z różnego rodzaju pakietów oprogramowania, takich jak narzędzia analityczne. Może być zautomatyzowany lub może być w dużej mierze pracochłonny, gdy poszczególni pracownicy wysyłają określone zapytania o informacje do archiwum lub bazy danych. Ogólnie rzecz biorąc, eksploracja danych odnosi się do operacji, które obejmują stosunkowo zaawansowane operacje wyszukiwania, które zwracają ukierunkowane i określone wyniki. Na przykład narzędzie do eksploracji danych może przeglądać dziesiątki lat informacji księgowych w celu znalezienia określonej kolumny wydatków lub należności z tytułu określonego roku operacyjnego.
Krótko mówiąc, big data jest zasobem, a eksploracja danych to „moduł obsługi” tego, który służy do zapewniania korzystnych wyników.