Spisu treści:
SQL na Hadoop to grupa narzędzi analitycznych, które łączą zapytania i przetwarzanie danych w stylu SQL z najnowszymi elementami struktury danych Hadoop. Pojawienie się SQL na Hadoop jest ważnym postępem w przetwarzaniu dużych zbiorów danych, ponieważ pozwala szerszym grupom ludzi z powodzeniem pracować ze strukturą przetwarzania danych Hadoop, uruchamiając zapytania SQL na ogromnych wolumenach dużych danych przetwarzanych przez Hadoop. Oczywiście środowisko Hadoop nie było wcześniej tak łatwo dostępne dla ludzi, szczególnie pod względem możliwości zapytań. W oparciu o rozwój opracowano kilka narzędzi, które obiecują poprawić wydajność przedsiębiorstw, jeśli chodzi o przetwarzanie i analizę dużych zbiorów danych z jakością i szybkością. Nie trzeba też dużo inwestować w naukę tego narzędzia, jak powinna zrobić tradycyjna znajomość SQL.
Definicja SQL na Hadoop
SQL na Hadoop to grupa aplikacji, która umożliwia uruchamianie zapytań w stylu SQL na dużych danych hostowanych przez platformę przetwarzania danych Hadoop. Oczywiście dodawanie SQL na Hadoop stało się łatwiejsze w przypadku zapytań, pobierania i analizowania danych. Ponieważ SQL został pierwotnie zaprojektowany dla relacyjnych baz danych, musiał zostać zmodyfikowany zgodnie z modelem Hadoop 1, który obejmuje MapReduce i rozproszony system plików Hadoop (HDFS), oraz modelem Hadoop 2, który nie ma MapReduce i HDFS.
Jedna z najwcześniejszych prób połączenia SQL z Hadoop zaowocowała stworzeniem hurtowni danych Hive z oprogramowaniem HiveQL, które mogłoby tłumaczyć zapytania w stylu SQL na zadania MapReduce. Następnie opracowano kilka aplikacji, które mogą wykonywać podobne zadania. Wśród późniejszych narzędzi widoczne są: Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) i Tez (Hive on Tez).