Spisu treści:
Definicja - Co oznacza Apache Nutch?
Apache Nutch to oprogramowanie do indeksowania stron internetowych, które może służyć do agregowania danych z sieci. Jest on używany w połączeniu z innymi narzędziami Apache, takimi jak Hadoop, do analizy danych.
Techopedia wyjaśnia Apache Nutch
Apache Nutch jest produktem typu open source licencjonowanym przez Apache Software Foundation. Ta społeczność programistów posiada licencje na szereg narzędzi programowych Apache, które mogą sortować i analizować dane. Jedną z głównych technologii jest Apache Hadoop, narzędzie do analizy dużych zbiorów danych, które jest bardzo popularne w środowisku biznesowym.
Oprócz narzędzi, takich jak Apache Hadoop i funkcji przechowywania plików, analiz i innych, rolą Nutch jest gromadzenie i przechowywanie danych z Internetu za pomocą algorytmów indeksowania sieci.
Użytkownicy mogą korzystać z prostych poleceń w Apache Nutch, aby zbierać informacje pod adresami URL. Użytkownicy zwykle używają Apache Nutch wraz z innym narzędziem typu open source, o nazwie Apache Solr, które może działać jako repozytorium danych gromadzonych za pomocą Apache Nutch.