Open Source im professionellen Einsatz
Linux-Magazin 06/2013
© Fedor Selivanov, 123rf.com

© Fedor Selivanov, 123rf.com

Langzeitarchivierung

Dauerlösung

,

Digitale Dokumente der Zeitgeschichte sind flüchtiger als Stein, Pergament oder Papier. Drei Archivierungstools helfen gegen das Vergessen und sichern Internetauftritte.

695

Das Internet vergisst nichts! Von wegen, die durchschnittliche Lebensdauer einer Webseite beträgt laut Internet Archive nur 77 Tage [1]. Die Flüchtigkeit digitaler Informationen bereitet vor allem den Archiven Kopfzerbrechen, die zunehmend mit Hilfe dynamischer Webanwendungen publizieren. Stadt-, Regional- und Kommunalarchive sind nach den Archivgesetzen der Länder verpflichtet ihre Daten zu speichern, aber auch Instituts- oder Unternehmensarchive möchten solche Inhalte aufbewahren. Es reicht längst nicht mehr aus, einfache Backups der Internetpräsenz auf zukunftssicheren Medien zu speichern – in nur 20 Jahren dürfte selbst ein geschickter Admin ein heute zeitgemäßes Contentmanagement-System kaum installieren können.

Viele Archive behelfen sich, indem sie einzelne relevante Seiten in Handarbeit als PDF-Dateien sichern [2]. Ein solches Vorgehen kann jedoch nicht mehr als eine Notlösung sein. Abhilfe versprechen auf Langzeitarchivierung spezialisierte Tools. Neben sehr teuren kommerziellen Lösungen werben auch einige Open-Source-Vertreter um die Gunst der Archivare. Httrack [3], die Netarchive Suite [4] und das Web Curator Tool [5] zeigen in dieser Bitparade unter Ubuntu 12.10 und auf einem Cloud-Linux (Amazon, basierend auf RHEL 5), wie sie digitale Informationen aufbewahren.

Die Tester ließen die Werkzeuge Daten von unterschiedlichen Contentmanagement-Systemen, Blog- und Forensoftware erheben. Sie wählten eigene Webseiten, um sicherzustellen, dass der jeweilige Crawler auf alle Inhalte zugreifen durfte.

Httrack

Den Auftakt macht das älteste Tool. Den unter der GPL veröffentlichten Offlinebrowser Httrack [3] gibt es bereits seit zehn Jahren. Er steht auf der Projektseite für Linux-, BSD- und Windows-Systeme zum Download bereit. Im Test trat die aktuelle Version 3.46 vom Juni 2012 an. Das in C programmierte Werkzeug benötigt für den Betrieb keine Datenbank. Linux-Anwender nutzen es entweder auf der Kommandozeile oder über ein Webinterface. Zusätzlich ist ein in Qt implementiertes GUI namens Httraqt [6] verfügbar.

Auf einem Standard-Linux-System ist Httrack schnell eingerichtet. Pakete für Debian, Ubuntu, Gentoo, Fedora, Red Hat und Mandriva bietet die Downloadseite. Auf einigen Distributionen, so auch auf dem Ubuntu-Testrechner, gibt es zwei Pakete – eins für das Kommandozeilentool (»httrack« ) und eins für das Webinterface (»webhttrack« ). Ersteres bietet zwei Betriebsarten: Entweder startet der Anwender über Eingabe von »httrack« den interaktiven Modus und beantwortet Fragen oder er gibt über Aufrufparameter seine Wünsche an. Die Manpage und der Befehl »httrack --help« listen die wichtigsten Optionen auf.

Wiedererkennungswert?

Das Webinterface fragt die gleichen Dinge ab wie das interaktive Shelltool. Zunächst möchte Httrack einen Projektnamen einrichten, danach ein Verzeichnis für das lokale Archiv. Benutzer geben nun die zu archivierende URL an und wählen aus, ob sie die Webseite mit oder ohne Hilfe des Assistenten spiegeln, nur die Zieldatei speichern, alle Links der URL spiegeln oder einfach nur die Links testen möchten. Um ein möglichst komplettes Archiv zu erhalten, empfiehlt sich die Arbeit mit dem Assistenten, der detaillierte Fragen stellt (siehe Abbildung 1).

Abbildung 1: Anwender konfigurieren ihre Archivprojekte bequem über das Httrack-Webinterface. Hinter den Links verstecken sich die jeweiligen Einrichtungsoptionen.

Httrack erstellt keine vollständigen Archive. Webinhalte speichert dieser Testkandidat in den Quellformaten, zum Beispiel HTML, CSS, Text und Grafiken. Auf der Shell schreibt »-V« Tar- oder Zip-Archive. Einige wenige Metadaten, etwa Änderungsdaten einer Webseite, sichert das Tool optional. Dynamisch generierte Webseiten landen also als statische Kopie auf der Platte, auf die gesammelten Inhalte greifen Anwender danach mit einem Webbrowser zu.

Interne Links bleiben vollständig erhalten. Zusammengesetzten URLs mit Funktionsaufrufen und vom Anwender eingegebenen Variablen kann Httrack nicht folgen. Während das Tool Client-side Imagemaps, bei denen der Browser die Koordinaten des Mausklicks auswertet, problemlos mitnimmt, verweigert es bei Server-side Imagemaps, bei denen der Webserver für die Verarbeitung der Koordinaten zuständig ist, den Dienst. Solche Grafiken landen als statische Bilder ohne jegliche Funktion im Archiv.

Auf mehrere Server verteilte Inhalte stellen Httrack vor ähnliche Probleme wie Wget. Beauftragt der Anwender das Tool auch Domains zu besuchen, deren Content eingebettet ist, begibt er sich auf eine Gratwanderung. Entweder definiert er hier zu viele weitere Server, sodass Httrack verknüpften Links ohne Rücksicht auf Verluste folgt, oder er gibt zu wenige frei und das Archivtool überspringt eingelagerte Inhalte. Dennoch sollten Archivare Httrack den Vorzug vor Wget geben, denn das Werkzeug erfasst immerhin CSS-Styles und punktet mit einem hilfsbereiten Wizard.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Sites archivieren

    Wer eine Website betreibt, muss mit Auseinandersetzungen über abfällige Forenbeiträge, Formulierungen über Produkteigenschaften, frühere Shop-Preise oder -Impressen rechnen. Ein gelegentlicher Site-Abzug bringt den Betreiber in eine bessere Position.

  • Benchmark-Suite für Linux von Phoronix mausert sich

    Die Online-Plattform Phoronix schreitet mit ihrer neuen Benchmark-Suite voran und legt eine ehrgeizige Roadmap vor.

comments powered by Disqus

Ausgabe 01/2017

Digitale Ausgabe: Preis € 6,40
(inkl. 19% MwSt.)

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.