Open Source im professionellen Einsatz
Linux-Magazin 08/2015
© Bruce Rolff 123RF

© Bruce Rolff 123RF

Big Data – Hadoop 2 und Apache Spark

Fischen im Datenmeer

Kritiker, die Hadoop totsagen wollen und Apache Spark hochleben lassen, handeln voreilig. Hadoop 2 ist dem Status einer einfachen Anwendung entwachsen und zur Big-Data-Plattform gereift. Eine Bestandsaufnahme abseits des Big-Data-Hype.

447

Über Big Data sprechen – das erfordert immer erst eine Definition dessen, was mit Big Data gemeint ist. Der Begriff ist in erster Linie Marketing-Geschwurbel mit entsprechend vielen Bedeutungen und Interpretationen, vergleichbar Begriffen wie "hoher Berg" oder "schnelles Auto". Eine weitere Voraussetzung ist die Erläuterung des Konzepts hinter dem Data Lake. Letzterer ist weniger Buzzword und anschaulicher als Big Data. Der Artikel soll erklären, warum Hadoop 2 mehr ist als eine Map-Reduce-Engine, und auch, wie Spark sich nahtlos in das Hadoop-Ökosystem einfügt.

Die Begriffe

Wie der Name vermuten lässt, geht es bei Big Data um die Bearbeitung großer Datenmengen, gerne in Petabytes gemessen. Wikipedia definiert einige Charakteristika von Big Data [1], die im Folgenden als Basis dienen:

Menge: Big Data wird durch die große Menge klar definiert. In manchen Fällen macht es die schiere Menge der Daten unmöglich, sie mit herkömmlichen Methoden zu bearbeiten.

Vielfalt: Die Daten können von verschiedenen Quellen stammen, die nicht zwingend miteinander zu tun haben.

Geschwindigkeit: Im Zusammenhang mit Big Data ist das die Größe dafür, wie schnell die Daten entstehen und bearbeitet werden können.

Variabilität: Die Daten können variabel, unvollständig oder inkonsistent sein.

Komplexität: Die Verbindungen zwischen den Datenquellen müssen nicht vollständig klar und für traditionelle relationale Methoden zugänglich sein.

Big Data kann auch kleiner

Unternehmen und Organisationen können nun zwar einige der oben genannten Ansprüche an die Datenverarbeitung entwickeln und trotzdem keinen Bedarf an der Verarbeitung übergroßer Datenmengen haben. Die Annahme, dass alle Firmen auf Petabytes von Daten sitzen, ist eben nicht notwendigerweise wahr. Im Blogpost "Big Data Surprises" [2] liegt laut den dort betrachteten Erhebungen die Einstiegsgrenze zu Big Data bei 110 GByte. Die Datenmenge, die ein durchschnittliches Unternehmen zu stemmen hat, beträgt laut diesen Analysen zwischen 10 und 30 Terabyte.

Der Artikel "Nobody Ever got Fired for Using Hadoop on a Cluster" [3] weist auf mindestens zwei Analyse-Cluster von Microsoft und Yahoo hin, die auf einen mittleren Input von weniger als 14 GByte pro Job kommen. Die Input-Größe von 90 Prozent der Jobs auf einem Facebook-Cluster liege bei weniger als 100 GByte, heißt es dort weiter.

Eine bessere Beschreibung für Big Data Processing wäre in dem Fall High Performance Data Processing (HPDP), weil die zuvor genannten Charakteristika High Performance Computing benötigen, um ihr Ziel zu erreichen. Diese Bezeichnung ist wiederum dem High Performance Technical Computing (HPTC) ähnlich, das oft als HPC oder Supercomputing bezeichnet wird. Es ließe sich argumentieren, dass HPDP und HPTC das Gleiche sind oder zumindest große Überlappungen aufweisen. Aktuell sei die Diskussion aber auf HPDP eingegrenzt.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.