Facebook stellt Presto unter Apache-2.0-Lizenz

- 07. November 2013

Facebook veröffentlicht von Zeit zu Zeit den Quellcode für Software, die das Unternehmen einsetzt – Hadoop, Hive und Hip Hop sind Beispiele. Das jüngste Beispiel dafür ist Presto, eine verteilte SQL-Query-Engine zum Speichern und Bearbeiten von Big Data.

Zur Begründung verwies Martin Traverso in einem Blogeintrag auf den wenig überraschenden Fakt, dass Facebook von Daten bestimmtes Unternehmen sei. Das Data Warehouse des sozialen Netzwerks beherbergt 300 Petabyte an Daten. Um diese ohne Verzögerungen zu durchsuchen, wurde Presto entwickelt. Traverso erklärt dann die Architektur. Verkürzt gesagt schickt ein Client eine SQL-Anfrage an einen Coordinator, der den Query analysiert und dessen Ausführung plant. Der Scheduler baut dann eine Ausführungs-Pipeline, verteilte die Arbeit auf Nodes, die sich in der Nähe der Daten befinden und beobachtet den Fortschritt. Schließlich wandern die Daten durch die Pipeline und werden vom Client in der Output Stage abgeholt.

Anders als Hive nutzt Presto kein Map Reduce für die Execution Pipeline, sondern verwendete eine eigene Query- und Execution Engine, welche die SQL-Semantik unterstützt. Neben dem verbesserten Scheduler geschieht das Prozessieren der Daten im Speicher und über mehrere Stationen im Netzwerk, was unnötigen Overhead erspart. Presto ist in Java geschrieben und kann sich dank einer Storage Abstraction aus verschiedenen Datenquellen bedienen, nicht nur HDFS. Insgesamt sei Presto zehn mal besser als Hive/MapReduce, was die CPU-Belastung und die Geschwindigkeit angehe und unterstütze eine große Untermenge an ANSI SQL, schreibt Traverso.

Die Software steht nun unter der Apache-2.0-Lizenz auf Github bereit, eine eigene Webseite gibt es auch. In den nächsten Monaten soll die Funktionalität erweitert und die Performance verbessert werden.

SCHLAGWORTE
Datenbank
SQL
Web

Linux-Kommandozeilentools kommen für Windows

Mit den "Coreutils for Windows" stellt Microsoft ein Set von Kommandozeilenwerkzeugen - dieselben wie unter Linux, MacOS oder WSL - bereit, das nativ unter Windows ausgeführt werden kann.

KI-Modelle lernen mit Open-Source-Daten Diagramme zu lesen

Das neue Trainingsdatenset ChartNet, entworfern von Forschern des MIT und des MIT-IBM Computing Research Lab, könnte die Genauigkeit von Vision-Language-Modellen (VLM) verbessern, die bei der Analyse von Geschäftstrends oder der Interpretation wissenschaftlicher Abbildungen helfen.

Trump unterzeichnet Anordnung zur Überprüfung von KI-Modellen

Die Anordnung stellt eine Abkehr von der bisher vom Weißen Haus gegenüber KI verfolgten zurückhaltenden Haltung dar. Sie folgt auf Debatten darüber, wie man die Kontrolle über KI-Modelle erlangen könne, ohne dabei die Innovation zu behindern.

Vim Classic in erster Version erschienen

Vim Classic ist einer von zwei Vim-Forks (der andere ist EVi), die sich auf die Fahnen geschrieben haben, ganz ohne KI-Unterstützung entwickelt zu werden. Vim Classic geht auf Vim 8.2.0148 zurück (EVi dagegen auf Vim 9.10 mit dem neuen Vim9-Script-Feature) und ist nun in der ersten Version 8.3...

Flathub verbietet KI-generierte Inhalte aller Art

Flathub, das zentrale Repository für Flatpak-Apps, hat eine neue Policy eingeführt, der zufolge KI-generierte oder -assistierte Inhalte verboten sind.

Anthropic beantragt Börsengang

Anthropic, das KI-Unternehmen hinter dem Chatbot Claude, hat vertraulich einen Antrag auf einen Börsengang eingereicht.

E-Mail Benachrichtigung

0 Kommentare

Älteste

Neuste Beste Bewertung

Inline Feedbacks

Alle Kommentare anzeigen