© NASA
Das verteilte Dateisystem Kosmos-FS
Dateien im Kosmos
von Tim Schürmann
Erschienen im Linux-Magazin
2008/04
Verteilte Dateisysteme wie das Google-FS jonglieren mühelos mit riesigen Dateien im Giga- und Terabyte-Bereich. Mit dem Kosmos-Filesystem schickt sich ein neuer und freier Vertreter dieser Gattung an, die Konkurrenz das Fürchten zu lehren.
Moderne Computerprogramme gebären und verdauen immer größere Datenmengen. Während sich Datamining-Anwendungen noch mit bestehenden Informationsbergen begnügen, horten Internet-Suchmaschinen alles, was ihnen zwischen die Finger gerät, bekanntestes Beispiel ist Google. Auch Forschung oder Grid-Computing sehen sich regelmäßig mit Dateien konfrontiert, die mehrere GByte auf die Waage bringen.
Die herkömmlichen Dateisysteme stoßen bei diesen Größenordnungen schnell an ihre Grenzen. Folglich muss ein passendes Rückgrat her, das solche großen Datenmengen sicher speichert und einen möglichst schnellen Zugriff gestattet. Die Einlagerung der Dateien sollte dabei möglichst redundant erfolgen - schließlich möchte niemand die womöglich in mehreren Nachtschichten mühsam errechneten Resultate durch einen blöden Plattenfehler verlieren.
Verteilte Dateisysteme erfüllen alle diese Anforderungen. Sie zerlegen die ihnen übergebenen Daten in verdauliche Häppchen und speichern sie in einem beliebig großen Rechnerverbund. Nach außen hin geschieht dies vollkommen transparent. Den Anwendungen gaukelt das verteilte Dateisystem eine riesige Festplatte vor, es virtualisiert den Speicher auf einem Cluster von Computern.
Ab ins All
Ein noch recht junger, aber aufstrebender Vertreter dieser Gattung ist das Kosmos File System, kurz KFS. Entwickelt hat es die namengebende Kosmix Corporation [1], die den gesamten Quellcode unter der Apache-Lizenz freigab. Die erste Alphaversion 0.1 erschien im September 2007. Das jugendliche Alter macht sich am deutlichsten während der Inbetriebnahme bemerkbar: So verlangt KFS nach einem 64-Bit-Linux, das zudem auf allen an der Datenspeicherung beteiligten Computern möglichst identisch sein sollte.
KFS tritt gleich gegen mehrere namhafte Konkurrenten an: Auf der einen Seite steht das Google File System (GFS), das Google als Unterbau für seine Suchmaschine verwendet, während am anderen Ufer HDFS aus dem Hadoop-Projekt wartet [2]. Den grundlegenden Aufbau und die Funktionsweise haben sich die KFS-Entwickler dreist bei Google abgeschaut, das Konzept aber von einigen lästigen Fesseln befreit. Wie sein Vorbild ist KFS auf Szenarien optimiert, in denen immer wieder extrem viele und äußerst große Dateien nur einmal entstehen, dann aber häufig ausgelesen werden.
Arbeitsteilung
Das Kosmos-Dateisystem besteht aus drei Komponenten:
-
Einem oder mehreren Chunkservern, die die eigentlichen Daten
auf ihren Festplatten speichern
-
Einem Metaserver, der den Chunkservern auf die Finger
schaut
-
Einer Anwendung, die schnell eine große Datei loswerden
möchte
KFS funktioniert damit ähnlich wie eine Datenbank, die sich zwischen ein Computerprogramm und das herkömmliche Dateisystem setzt (Abbildung 1).

|
Abbildung 1: Das Kosmos File System setzt sich, ähnlich wie eine Datenbank, zwischen die vorhandene Hardware und die Anwendung. Der Zugriff auf das virtuelle Dateisystem erfolgt über eine Client-Bibliothek.
|
| Whitepaper |
|
Open Source Datenintegration in der Praxis: Fallstudien und Anwendungsbeispiele
Über die letzten Jahre hinweg haben sich Open Source Lösungen als fester Bestandteil des gesamten Datenintegrationsmarktes etabliert. Viele Unternehmen haben bereits das Open Source Modell für Ihre Datenintegrationsprojekte aufgegriffen. Das vorliegende White Paper illustriert anhand ausgewählter Fallstudien und Anwendungsbeispiele die Implementierung von Open Source Datenintegration in der Praxis und benennt die daraus resultierenden Vorteile.
Download PDF (Registrierung erforderlich)
|
|
The Role of Open Source in Data Integration
Obwohl in den letzten Jahren viele technische Fortschritte erzielt werden konnten, verfügen die meisten Datenintegrationsprozesse nach wie vor nur über eine sehr begrenzte Automatisierung. Das vorliegende White Paper von dem Industry Analyst Mark Madson wird zunächst ein grundlegendes Verständnis von Daten Integration vermitteln, die Vorzüge von Open Source Lösungen für Daten Integration erläutern und Ihnen professionelle Empfehlungen geben, damit Sie Ihre Integrationsjobs noch einfacher und produktiver gestalten können.
Download PDF (Registrierung erforderlich)
|
Dieser Online-Artikel kann Links enthalten, die auf nicht mehr vorhandene Seiten verweisen. Wir ändern solche "broken links"
nur in wenigen Ausnahmefällen. Der Online-Artikel soll möglichst unverändert der gedrucken Fassung entsprechen.
|