Open Source im professionellen Einsatz
Linux-Magazin 02/2014
© lightwise, 123RF.com

© lightwise, 123RF.com

Drei praxiserprobte Tools, um Websites zu archivieren

Wider das Vergessen

Wer eine Website betreibt, muss mit Auseinandersetzungen über abfällige Forenbeiträge, Formulierungen über Produkteigenschaften, frühere Shop-Preise oder -Impressen rechnen. Ein gelegentlicher Site-Abzug bringt den Betreiber in eine bessere Position.

801

"Das stand letzte Woche aber nicht da!" Derartige Aussagen hören nicht nur Inhaber von Onlineshops nach der übereilten Bestellung eines Kunden, auch Moderatoren in Foren müssen sich mit dem Nachklang fremder Beiträge herumschlagen. Um später falsche Behauptungen der Benutzer, Käufer oder sogar windiger Abmahnanwälte zu widerlegen, sollten Administratoren von ihrer Website regelmäßig einen Schnappschuss erstellen und archivieren. Das gilt insbesondere für dynamische Internetauftritte, bei denen die Nutzer die Inhalte selbst gestalten oder einpflegen – wie etwa in einem Forum. Nur so lassen sich auch später noch Seitenänderungen schnell nachvollziehen. Schließlich gibt es für eine Konservierung auch noch nostalgische Gründe: Administratoren und Website-Betreiber können so auf die Anfänge ihres Onlineshops, alte Produkte oder kuriose Diskussionen zurückblicken.

Kriechtiere

Beim Sichern des Ist-Zustands helfen die Tools Heritrix, Httrack und natürlich der Klassiker Wget. Sie rufen wie ein normaler Besucher die Startseite eines Internetauftritts ab und folgen dann allen Links. Eine Software, die sich nach diesem Prinzip von einer Seite zur nächsten hangelt, nennt man Crawler oder Spider. Mit dem gleichen Verfahren klappern Suchmaschinen das Web ab. Anders als Google & Co. speichern Heritrix, Httrack und Wget jedoch alle auf ihrem Weg besuchten Seiten auf dem lokalen Rechner ihres Benutzers.

Die Arbeitsweise der drei Tools hat den Vorteil, dass der Administrator beliebige Websites archivieren kann, selbst wenn er keinen Zugriff auf den Webserver und die Datenbank besitzt oder ihm die Admin-Rechte auf Dauer nichts nützen, da das CMS die Datenbankstruktur ändert. Heritrix, Httrack und Wget biegen zudem in den heruntergeladenen Seiten automatisch alle Links auf die entsprechenden gespeicherten Kopien um, beispielsweise wird aus einem ankommenden

<a href="www.example.de/irgendw.html">
  <img src="www.example.de/news/artikel.png" />
</a>

auf der eigenen Festplatte dann ein:

<a href="./irgendw.html">
  <img src="./news/artikel.png" />
</a>

Daher lässt sich die archivierte Website genauso wie das Original mit einem Browser aufrufen und durchstreifen. Die Tools ersetzen jedoch kein Backup, ein defekter Onlineshop oder CMS lässt sich aus den gespeicherten Seiten in akzeptabler Zeit nicht wiederherstellen.

Die Tester untersuchten alle drei Werkzeuge auf einem System mit Ubuntu 13.10, die Anbindung ans Internet erfolgte über eine VDSL-Leitung. Als Testobjekte dienten eine statische Website mit etwa 220 Dateien einerseits, der Onlineshop der Medialinx AG [1] andererseits.

Surfgewitter

Heritrix, Httrack und Wget rufen schnell hintereinander alle Seiten eines Internetauftritts ab. Sie erzeugen folglich eine zusätzliche und je nach Einstellungen auch relativ hohe Last, die Webserver-Heuristiken schnell als Angriff interpretieren. Benutzer sind daher gut beraten, die Werkzeuge nur auf eigene Auftritte anzuwenden und sicherzustellen, dass die Tools keine Links zu anderen Websites verfolgen. Wer trotzdem einen fremden Auftritt archivieren möchte oder muss, sollte dessen Betreiber besser und vorab um Erlaubnis bitten.

Heritrix

Das Internet-Archive-Projekt https://archive.org verfolgt das hehre Ziel, die Zeitgeschichte des WWW zu archivieren. Im Backend der Wayback-Machine arbeitet ein selbst entwickelter Crawler namens Heritrix [2]. Das in Java geschriebene Tool steht unter der Apache License 2.0 und lädt auch weniger altruistisch ambitionierte Anwender zum Speichern einzelner Websites ein.

Auf der Heritrix-Homepage finden sich die ältere Version 1.14, die nur Bugfixes erfährt – wobei die letzte Aktualisierung aus dem Jahr 2010 stammt –, und neue Ausgaben, die auf dem Spring-Framework für Java [3] aufsetzen. Bei Redaktionsschluss aktuell war die Version 3.1.1, die sich auch im Test beweisen musste.

Heritrix erwartet ein Java Runtime Environment (JRE). Die Entwickler empfehlen die Fassung von Oracle in der veralteten Version 6. Unter Ubuntu 13.10 arbeitete der Crawler im Test aber reibungslos mit dem vom Software-Center angebotenen Open JDK 7 zusammen. Neben dem Quellcode bieten die Entwickler ein Binärpaket an [3].

Dieses müssen Anwender nur noch auf der Festplatte entpacken, den Pfad zum Heretrix-Ordner in der Umgebungsvariablen »HERITRIX_HOME« hinterlegen (wie etwa »export HERITRIX_HOME= /home/tim/heritrix-3.1.1« ) und schließlich das Tool aufrufen:

$HERITRIX_HOME/bin/heritrix -a Name:Passwort

Die Bedienung erfolgt über eine Weboberfläche im Browser. Dazu startet Heritrix automatisch einen eigenen Webserver, der an Port 8443 lauscht.

Die Verbindung erfolgt HTTPS-verschlüsselt, weshalb Nutzer bei der ersten Kontaktaufnahme ein von Heritrix unterschriebenes Zertifikat bestätigen müssen. Für den Zugriff sind zudem ein Benutzername und ein Passwort notwendig, die der Administrator entweder beim Start von Heritrix über den Parameter »-a« vorgibt oder in einer Textdatei hinterlegt.

Die karge Weboberfläche lässt sich nur umständlich bedienen (Abbildung 1). Um beispielsweise zu erfahren, ob eine Aktion noch läuft oder bereits abgeschlossen ist, müssen Anwender manuell die aktuelle Seite neu laden.

Abbildung 1: Die Weboberfläche von Heritrix besteht nur aus einzelnen HTML-Formularen. Zwischen ihnen wechseln Anwender über die Vor- und Zurück-Buttons ihres Browsers.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 6 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Linux-Magazin kaufen

Einzelne Ausgabe
 
Abonnements
 
TABLET & SMARTPHONE APPS
Bald erhältlich
Get it on Google Play

Deutschland

Ähnliche Artikel

  • Bitparade

    Digitale Dokumente der Zeitgeschichte sind flüchtiger als Stein, Pergament oder Papier. Drei Archivierungstools helfen gegen das Vergessen und sichern Internetauftritte.

comments powered by Disqus

Ausgabe 01/2017

Digitale Ausgabe: Preis € 6,40
(inkl. 19% MwSt.)

Artikelserien und interessante Workshops aus dem Magazin können Sie hier als Bundle erwerben.