Open Source im professionellen Einsatz
Linux-Magazin 03/2014
© gromovataya, 123RF.com

© gromovataya, 123RF.com

Dateisysteme mit Deduplizierung im Test

Erhofftes Doppelleben

Moderne Dateisysteme mit eingebauter Deduplizierung erkennen doppelt zu speichernde Blöcke und schreiben sie nur ein Mal auf die Platte. Das spart Platz und könnte sogar Geschwindigkeitsvorteile bringen.

641

Deduplizierung nennt man Mechanismen, die Daten-Redundanzen großen Ausmaßes dazu nutzen, um Speicherplatz zu sparen – eine gute Sache angesichts stetig anschwellender Datenmengen allerorten. Am weitesten verbreitet ist Deduplizierung derzeit bei Backupsystemen [1], sie kommt zunehmend aber auch auf Fileservern zum Einsatz.

Kritiker dagegen sagen, der Aufwand lohne wegen fallender Festplattenpreise nicht. Das Argument ist für den einzelnen PC betrachtet durchaus diskutabel. Auf die IT eines Unternehmens bezogen, ist allerdings anzumerken, dass sich der Erweiterungsaufwand nicht auf den Einbau weiterer Festplatten beschränkt: Es bedarf weiteren Speichers für Backup-Generationen sowie Admins und Software, die den erweiterten Storage verwalten. Außerdem können Platten, die man vermeidet, auch nicht ausfallen.

Es gibt darum genug Gründe, sich mit Entvielfältigung zu befassen. Dieser Artikel jedenfalls tut es, zumal Linux Admins eine Gruppe von Dateisystemen aufs Tablett legt, die Deduplizierung auf ihrer Featureliste stehen haben.

Doppeltes an der Quelle

Es gibt mehrere Spielarten von Deduplizierung. Man kann Daten an der Quelle, also in der Anwendung, deduplizieren oder am Ziel, auf dem Datenträger. Erstere Methode besitzt den charmanten Nebeneffekt, die Übertragungskanäle zu entlasten – egal ob es sich um das Netzwerk oder die SATA- beziehungsweise SAS-Verbindungen handelt. Dazu muss sich die Applikation aber selbst ums Deduplizieren kümmern.

Das klappt bei den Programmgattungen ganz hervorragend, deren Funktionsweise sowieso in Richtung Deduplikation geht wie Versionskontrollsysteme, Backup-Software oder Virtualisierungen, die alle tendenziell die Hauptdaten nur ein Mal ablegen und anfallende Varianten als Diffs speichern. Die technische Basis dahinter ist Copy-on-Write. Es steckt übrigens hinter vielen anderen Features, die Speichersysteme kennen, wie Snapshots, Schattenkopien oder Versionierung. Wenn Deduplizierung nur das vielfache Speichern ganzer Dateien verhindern soll, spricht man auch vom Single Instance Storage, SIS.

Ein großes Potenzial fürs Deduplizieren besitzt übrigens Groupware: Wenn Benutzer A eine Mail mit Anhängen an Benutzer B, C, D und so weiter schickt, braucht der Server alle Inhalte eigentlich nur in einfacher Ausführung in seinem Mailstore vorzuhalten.

IT-geschichtlich betrachtet war das Platzsparen bereits auf Großrechnern früherer Tage mit ihren autarken Speichersystemen en vogue. Sie vermochten schon komplette Datenbestände zu klonen. Intern legten sie dazu einen neuen Satz Zeiger auf diese Daten an und täuschten die Verdoppelung der Nutzdaten-Menge nur vor. Spätere Änderungen an den Daten speicherten sie einfach getrennt davon.

Das Ziel ist das Ziel

Die zweitbeste Variante ist das Deduplizieren am Ziel, also am Speichort. Dateisysteme und damit die Testkandidaten dieses Artikels gehören in diese Schublade. Anders als bei Deduplikation an der Quelle weiß das Ziel zunächst nichts über die nichts über die Struktur der Daten, die es speichern soll. Es muss sie folglich analysieren, was einerseits weniger effektiv und andererseits rechenaufwändig ist. Andererseits eignet sich die Methode für Daten jeder Art.

Auch von der Deduplikation am Ziel gibt es zwei Varianten: Online und offline. Die Begriffe sind etwas verwirrend. Gemeint ist, ob bereits während des Schreibvorgangs dedupliziert wird oder nicht. Es während des Schreibens zu tun besitzt den Vorzug, dass es auch gleich erledigt ist und so von vornherein klar feststeht, wie viel Platz das Speichern erfordert.

Allerdings geht dies heftig zu Lasten der Gesamtperformance, denn noch vor dem Schreiben auf den Datenträger muss die Deduplizier-Engine permanent die Hashes errechnen und mit denen vorhandener Blöcke vergleichen. Das erfordert CPU-Leistung und die Möglichlkeit, große Teile der Datenbank im RAM vorzuhalten, in denen sich der Deduplizierer merkt, welche Teile der Daten bereits auf der Festplatte vorliegen.

Offline arbeitende Deduplizierer schreiben dagegen mit maximaler Geschwindigkeit auf das Medium und deduplizieren erst später. Hauptnachteil ist hier, dass die Platzersparnis erst im Nachgang erreicht wird. Das führt unter anderem zu dem Effekt, dass der Benutzer den Inhalt eines gut gefüllten Volumes nicht auf ein gleich großes zweites Volume kopieren kann, eben weil das Zielmedium anfangs die rohen Daten aufnehmen muss.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 5 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Open Attic 1.0 bringt Deduplizierung und Komprimierung

    Das freie Storage-System Open Attic ist in der stabilen Version 1.0 verfügbar.

  • Überblick

    Linux unterstützt eine stolze Anzahl von Dateisystemen. Für das Lagern von Daten auf lokalen Platten haben sich im Rechenzentrumsbetrieb aber nur einige bewährt. Das Linux-Magazin präsentiert in seiner Auslese aktuelle Jahrgänge der Ext-Familie, von XFS, JFS sowie Btr-FS.

  • Nexentastor Community Edition 3.0 dedupliziert ZFS

    Die Community-Edition von Nexentastor, eine Storagelösung auf Open-Solaris-Basis, ist in Version 3.0 verfügbar.

  • Kernel-News

    In welche Richtung der im Titel genannte Arbeitsname die Erwartungen für Linux 4.8 lenken soll, verriet Linus Torvalds nicht. Für AMD- und Raspberry-Pi-3-Fans gibt es aber tierisch gute Neuigkeiten.

  • Nexenta stellt Scale-out-Objektspeicher vor

    Nexenta, ein  führender Anbieter von Software-Defined-Storage-Lösungen (SDS), gab heute die Einführung von NexentaEdge 1.0 bekannt, einem Software-gestützten Scale-out-Block- und -Objektspeicherlösung mit globaler Inline-Deduplizierung in Clustern der Petabyte-Größenordnung.

comments powered by Disqus

Stellenmarkt

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.