Open Source im professionellen Einsatz

Vespa: Yahoos Big-Data-Engine wird Open-Source-Projekt

28.09.2017

Seit 2016 gehört Yahoo zur Verizon-Gruppe und darin zu Oath, dem Verizon Digital Network. Oath stellt nun Yahoos Big-Data-Engine Vespa unter eine Open-Source-Lizenz.

323

Das Java-Projekt Vespa soll es Admins laut der Ankündigung erleichtern, Anwendungen zu erstellen, die in Echtzeit Resultate aus einer großen Menge an Daten herausfiltern, um sie dem Benutzer dann zu präsentieren. Während Hadoop und Storm laut der Ankündigung dabei helfen, die Daten zu verarbeiten, sei der letzte Schritt, sie auszuliefern, noch ein Problem. Vespa will diese Lücke füllen und sei im Hinblick auf die Codezeilen größer als jedes bislang veröffentlichte Open-Source-Projekt von Yahoo.

Die Software kommt bei Oath unter anderem für Yahoo.com, Yahoo News oder Flickr zu Einsatz. Sie soll 90 000 mal pro Sekunde Inhalte und Anzeigen ausliefern können, mit Latenzen im Zehntel-Millisekunden-Bereich. Für Flickr bewältige Vespa zum Beispiel hunderte von Abfragen pro Sekunde und durchwühle dabei einige Milliarden von Bildern. Über Yahoo Gemini wickele Vespa rund drei Milliarden native Anzeigenabfragen pro Tag ab.

Die Architektur von Vespa (Quelle: Oath.com)

Die Daten und seine Berechnungen verteilt Vespa dabei auf viele Maschinen, wobei die Software auf einen Master verzichtet, der zum Flaschenhals werden könnte. Anders als herkömmliche Anwendungen, ziehe Vespa nicht die Daten in eine zustandslose Schicht, um sie zu verarbeiten, sondern erledigt die Berechnungen bei den Daten. Dazu verwaltet die Software Cluster mit vielen Nodes, die im Hintergrund Daten redundant verteilen, stellt neue Kapazitäten bereit implementiert verteilten Abfrage- und Verarbeitungsalgorithmen mit geringer Latenz, kümmert sich um die Konsistenz der verteilten Daten und vieles mehr.

Vespa erlaubt es Anwendungsentwicklern, Daten und Modelle beliebiger Größe in das Betriebssystem einzuspeisen und die endgültigen Berechnungen zur gewünschten Zeit auszuführen. Dies verbessere das Benutzererlebnis bei niedrigeren Kosten und erlaube komplexere Antworten, weil Vespa auf Pre-Computing-Antworten auf Anfragen verzichte. Entwickler arbeiten interaktiver, indem sie in Echtzeit navigieren und mit komplexen Berechnungen interagieren, anstatt Offline-Jobs zu starten, um die Ergebnisse später zu überprüfen. Der Code für Vespa steht auf Github unter der Apache-Lizenz-2.0 bereit.

Ähnliche Artikel

  • Neuer Aufsichtsrat der OpenID Foundation mit Yahoo und Microsoft

    Die OpenID Foundation hat eine Reihe neuer prominenter Unterstützer: Yahoo und Microsoft finden sich Seite an Seite im neu gegründeten Aufsichtsrat, ebenso wie Google, IBM und Verisign.

  • Der Lauscher an der Wand

    Ein Lausch-Bot in einem IRC-Kanal springt bei bestimmten Schlüsselwörtern an und benachrichtigt einen definierten User via Instant Messaging über das Gehörte.

  • Hadoop 2

    Kritiker, die Hadoop totsagen wollen und Apache Spark hochleben lassen, handeln voreilig. Hadoop 2 ist dem Status einer einfachen Anwendung entwachsen und zur Big-Data-Plattform gereift. Eine Bestandsaufnahme abseits des Big-Data-Hype.

  • Hinterm Horizont

    Der naturverbundene Perl-Hacker erforscht die Bergwelt selbstverständlich mit einem Navigationssystem. Dass er anschließend seine erbrachte Wanderleistung grafisch auswertet, ist Ehrensache.

  • HP, Intel und Yahoo stoßen Forschung zu Cloud-Computing an

    Das Firmen-Trio und drei Partner aus der Wissenschaft wollen weltweit verstreute Rechenzentren als Testumgebung für Cloud Computing zum Zwecke der Forschung nutzen und anderen Forschern zur Verfügung stellen.

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.