Open Source im professionellen Einsatz

Apache Nutch 2.0 crawlt mit Big-Data-Unterstützung

11.07.2012

Apache Nutch, ein Java-Framework für Webcrawler, ist in Version 2.0 verfügbar.

72

Die neue Release ist dazu gedacht, Intranets und das Web im großen Maßstab zu durchstöbern. Die abstrahierte Storage-Anbindung mittels Apache Gora erlaubt es, verschiedene Big-Data-Speicher einzusetzen, darunter Cassandra, HBase, das Hadoop-Dateisystem und SQL-Datenbanken. Neben der neuen Version 2.0 haben die Entwickler die Wartungsrelease 1.5.1 für den älteren Zweig der Software veröffentlicht.

Nutch steht unter Apache License 2.0. Die jüngste sowie die Wartungsrelease stehen auf den Apache-Mirrors zum Download bereit.

Java , Web

Ähnliche Artikel

  • Neue Apache-Projekte zu Suche und Mapreduce-Verfahren

    Die Apache Software Foundation (ASF) hat im Mai sechs neue Toplevel-Projekte eingerichtet, mehr als je zuvor innerhalb eines Monats.

  • Suchmaschine

    CMS, Wiki, Word-Files, … – selbst bei größter Disziplin aller Mitarbeiter kann kein Unternehmen seine Daten so strukturiert speichern, dass jedes Detail zügig auffindbar bleibt. Was tun? Aus den Apache-Projekten Solr, Nutch und Lucene eine eigene sauschnelle Suchmaschine bauen.

  • Mehr HTML 5 in Apache Wicket 1.5

    Apache Wicket, ein freies Java-Framework für die Webentwicklung, ist in Version 1.5 mit neuen Features erhältlich.

  • Wartungsrelease: Debian 6.0.6

    Das Debian-Projekt hat die Installationsmedien für den derzeit stabilen Zweig 6.0 (Squeeze) auf Version 6.0.6 aktualisiert.

  • Apachecon Europe 2012 sucht Beiträge

    Die Apachecon Europe 2012 findet vom 5. bis 9. November im baden-württembergischen Sinsheim statt. Bis 3. August können Interessierte Beiträge einreichen.

comments powered by Disqus

Ausgabe 11/2017

Digitale Ausgabe: Preis € 6,40
(inkl. 19% MwSt.)

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.