Sadržaj:
Definicija - Što znači Apache Nutch?
Apache Nutch je softverski program za indeksiranje web stranica koji se može koristiti za objedinjavanje podataka s interneta. Koristi se zajedno s drugim Apacheovim alatima, poput Hadoopa, za analizu podataka.
Tehopedija objašnjava Apache Nutch
Apache Nutch je proizvod otvorenog koda licenciran od strane Apache Software Foundation. Ova zajednica programera posjeduje licence za niz softverskih alata Apache koji mogu sortirati i analizirati podatke. Jedna od središnjih tehnologija je Apache Hadoop, veliki alat za analizu podataka koji je vrlo popularan u poslovnoj zajednici.
Uz alate poput Apache Hadoop i značajke za pohranu datoteka, analizu i još mnogo toga, uloga Nutch je prikupljanje i pohranjivanje podataka s weba pomoću algoritama pretraživanja datoteka.
Korisnici mogu iskoristiti jednostavne naredbe u Apache Nutch za prikupljanje podataka pod URL-ovima. Korisnici obično koriste Apache Nutch zajedno s drugim alatom otvorenog koda, okvirom pod nazivom Apache Solr, koji može djelovati kao spremište podataka prikupljenih pomoću Apache Nutch.