Open Source im professionellen Einsatz

Praxisführer für Hadoop

01.03.2012

Ramon Wartalas 300-seitiges Werk "Hadoop" stellt die gleichnamige Map-Reduce-Implementierung vor. Man kann es kann nicht genug betonen: Das Buch richtet sich an den Praktiker und nicht an den Theoretiker.

Wartala geht es um Infrastruktur rund um die zuverlässige, verteilte und skalierbare Big-Data-Anwendung Hadoop. Und hierzu erklärt er alle notwendigen Bestandteile. Dazu gehört die Installation, aber auch die ersten Schritte mit Hadoop. Detailliert beschreibt der Autor die Arbeit mit dem Hadoop-Dateisystem und Map-Reduce.

Das anschließende Kapitel, das gut die Hälfte des Buches ausmacht, widmet sich dem Hadoop-Ökosystem. Dies umfasst die Datenfluss-Sprachen, die spaltenorientierten Datenbanken und die Programmierschnittstellen zu Daten-Serialisierung und Workflow-Systemen. Zu jeder dieser Komponenten stellt der Verfasser mehrere verschiedene Beispiele vor. Exemplarisch seien die Workflow-Systeme Azkaban, Oozie, Cascading und Hue genannt. Die Vorstellung der vorhandenen Software im Ökosystem Hadoop umfasst immer deren Installation, Konfiguration und Anwendung.

Das Buch bleibt dem Praktiker treu, denn als Nächstes stellt es die Definition von Map-Reduce-Jobs mit der integrierten Entwicklungsumgebung Eclipse vor. Der Umgang mit Logdateien, aber auch das Überwachen von Hadoop runden die Administration von Hadoop und somit auch das Werk ab. Den Abschluss bildet das besondere Kapitel über der Einsatz von Hadoop in der Praxis.

Das Buch ist mehr als nur ein Leitfaden für den Administrator, wie er Hadoop in Big-Data-Anwendungen sinnvoll einsetzt. Es ist zugleich Referenz zahlreicher Softwarepakete im Hadoop-Ökosystem sowie der Software selber. Darin liegt der große Wert dieses Werkes. Ramon Wartala besitzt große Erfahrung im Umgang mit Hadoop und diese vermittelt er dem Leser in äußerst systematischer Weise. Leider leidet die Lesbarkeit des Buches ab und zu unter dieser strengen Systematik. Trotzdem gilt: Wer Hadoop professionell betreiben will, für den ist Wartalas Buch Pflichtlektüre.

Info

Ramon Wartala:

Hadoop

Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen

Open Source Press 2012

312 Seiten

29.90 Euro

ISBN 978-3-941841-61-1

(
)

Ähnliche Artikel

  • Hadoop 2

    Kritiker, die Hadoop totsagen wollen und Apache Spark hochleben lassen, handeln voreilig. Hadoop 2 ist dem Status einer einfachen Anwendung entwachsen und zur Big-Data-Plattform gereift. Eine Bestandsaufnahme abseits des Big-Data-Hype.

  • Hadoop Studio 1.2.0 für Netbeans-IDE

    Das Startup Karmasphere hat Hadoop Studio auf Version 1.2.0 aktualisiert. Die Erweiterung für die Netbeans-IDE dient zum Entwickeln und Verwalten von Jobs für Apache Hadoop.

  • Apache Hadoop 2.0 Alpha

    Mit der Ankündigung der Alpha-Version von Apache Hadoop 2.0 sieht sich das Entwicklerteam für das Framework für den Clusterbetrieb einen wichtigen Schritt weiter.

  • Open Stack Sahara

    Bei Big Data ist Apache Hadoop aktuell der Liebling des Marketings. Doch das Setup einer vollständigen Hadoop-Umgebung ist nicht einfach. Open Stack Sahara verspricht dagegen Hadoop auf Knopfdruck.

  • Online-Artikel: Googles MapReduce-Framework und Hadoop

    Der kostenlose Online-Artikel stellt das von Google entwickelte und von vielen Branchengrößen eingesetzte Framework MapReduce vor. Inspiriert von funktionaler Programmierung und mit Hilfe tausender Rechnerknoten kann es enorme Datenmengen verarbeiten.

comments powered by Disqus