Spisu treści:
Definicja - Co oznacza Apache Kudu?
Apache Kudu jest członkiem ekosystemu Apache Hadoop typu open source. Jest to silnik pamięci masowej typu open source przeznaczony do danych strukturalnych, który obsługuje losowy dostęp o niskim opóźnieniu wraz z wydajnymi wzorcami dostępu analitycznego. Został zaprojektowany i wdrożony w celu wypełnienia luki między szeroko stosowanym rozproszonym systemem plików Hadoop (HDFS) a bazą danych HBase NoSQL. Chociaż systemy te mogą nadal okazać się korzystne, Apache Kudu może obsłużyć wiele typowych obciążeń, ponieważ może znacznie uprościć ich architekturę.
Techopedia wyjaśnia Apache Kudu
Apache Kudu został opracowany przede wszystkim jako projekt w Cloudera. Większość dotychczasowych składek pochodzi od programistów zatrudnionych przez Cloudera. Podczas jego wydania tylko repozytoria Cloudera zawierały tylko pliki binarne, jednak po dołączeniu do inkubatora przyjęła proces wydawania źródła Apache Software Foundation (ASF). Jest specjalnie zaprojektowany dla przypadków użycia, które wymagają szybkiej analizy szybkich danych. Został zaprojektowany, aby wykorzystać sprzęt nowej generacji i przetwarzanie w pamięci. Znacząco zmniejsza opóźnienie zapytań dla Apache Impala i Apache Spark. Dystrybuuje dane za pomocą silnika do przechowywania kolumnowego lub poprzez partycjonowanie poziome, a następnie replikuje każdą partycję przy użyciu konsensusu Raft, zapewniając w ten sposób niski średni czas do odzyskania i niskie opóźnienia ogona.
Chociaż Kudu jest produktem zaprojektowanym w kontekście ekosystemu Apache Hadoop, obsługuje także integrację z innymi projektami analizy danych zarówno w ASF, jak i poza nim.
Apache Kudu okazuje się być skuteczny, ponieważ może przetwarzać obciążenia analityczne w czasie rzeczywistym na pojedynczej warstwie magazynowania, dając architektom elastyczność w radzeniu sobie z większą różnorodnością przypadków użycia bez egzotycznych obejść.
