Apache Nutch 2.0 crawlt mit Big-Data-Unterstützung

Apache Nutch, ein Java-Framework für Webcrawler, ist in Version 2.0 verfügbar.

Die neue Release ist dazu gedacht, Intranets und das Web im großen Maßstab zu durchstöbern. Die abstrahierte Storage-Anbindung mittels Apache Gora erlaubt es, verschiedene Big-Data-Speicher einzusetzen, darunter Cassandra, HBase, das Hadoop-Dateisystem und SQL-Datenbanken. Neben der neuen Version 2.0 haben die Entwickler die Wartungsrelease 1.5.1 für den älteren Zweig der Software veröffentlicht.

Nutch steht unter Apache License 2.0. Die jüngste sowie die Wartungsrelease stehen auf den Apache-Mirrors zum Download bereit.

E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben