Spisu treści:
Apache Hadoop od dawna stanowi podstawę dla aplikacji Big Data i jest uważany za podstawową platformę danych dla wszystkich ofert związanych z Big Data. Jednak baza danych i obliczenia w pamięci zyskują popularność ze względu na wyższą wydajność i szybkie wyniki. Apache Spark to nowy framework, który wykorzystuje możliwości pamięci w celu zapewnienia szybkiego przetwarzania (prawie 100 razy szybszego niż Hadoop). Tak więc produkt Spark jest coraz częściej wykorzystywany w świecie dużych zbiorów danych, głównie w celu szybszego przetwarzania.
Seminarium internetowe: siła sugestii: w jaki sposób katalog danych upoważnia analityków Rejestracja tutaj |
Co to jest Apache Spark?
Apache Spark to platforma typu open source do szybkiego przetwarzania i przetwarzania ogromnych ilości danych (big data). Nadaje się do aplikacji analitycznych opartych na big data. Spark może być używany ze środowiskiem Hadoop, autonomicznie lub w chmurze. Został on opracowany na Uniwersytecie Kalifornijskim, a następnie zaoferowany Apache Software Foundation. W związku z tym należy do społeczności open source i może być bardzo opłacalny, co dodatkowo umożliwia programistom-amatorom łatwą pracę. (Aby dowiedzieć się więcej o otwartym oprogramowaniu Hadoop, zobacz Jaki jest wpływ Open Source na ekosystem Apache Hadoop?)
Głównym celem Spark jest to, że oferuje programistom strukturę aplikacji, która działa wokół wyśrodkowanej struktury danych. Spark jest również niezwykle potężny i ma wrodzoną zdolność do szybkiego przetwarzania ogromnych ilości danych w krótkim czasie, oferując tym samym wyjątkowo dobrą wydajność. To sprawia, że jest znacznie szybszy niż jego najbliższy konkurent, Hadoop.