Wer wissen möchte, wie sein Produkt ankommt, muss teure Marktanalysen bezahlen - es sei denn, er bietet Webseiten an. Dann geben bereits die Logfiles des Webservers Aufschluss über Besucherzahlen, Verweildauer, die beliebtesten Seiten und darüber, wie Besucher sich am häufigsten durch die Site bewegen. Doch die Daten, die Apache mitschreibt, sind überaus deutungsbedürftig:
192.168.1.117 - - [25/Jul/2007:13:15:05+0200] "GET /epi/index_library.hp?rs=getFiles&rsargs[]=u39&rsargs[]=1&rsrd=1185362099011 HTTP/1.1" 200 141 "http://192.168.1.90/epi/index_library.php" "Mozilla/5.0 (X11; U; Linux i686; de; rv:1.8.1.5) Gecko/20070713 Firefox/2.0.0.5"
Jede Zeile im Accesslog des Servers berichtet unter anderem über die IP des Besuchers, den Befehl, den sein Browser an den Webserver gerichtet hat, sowie welchen Browser und welches Betriebssystem er benutzt. Selbst wer die Zeilen im Accesslog zu deuten versteht, ist wegen ihrer schieren Zahl auf eine Software angewiesen, die solche Rohdaten statistisch verarbeitet.
Log-Analyzer - etwa Webalizer und dessen Forks Webalizer Xtended und Stone Step Webalizer sowie Awstats - verwandeln die schwer verdaulichen Apache-Logs in übersichtliche Balkengrafiken, die sich auch in Meetings präsentieren lassen. Außer diesen Programmen, die sich darauf konzentrieren, den Traffic zu analysieren, stellt die Bitparade noch zwei Programme vor, die nicht nach der Quantität der Zugriffe fragen. Pathalizer und Visitors stellen die Bewegungen der Besucher auf der Site grafisch dar.
E Webalizer & Co.
Der Open-Source-Klassiker Webalizer ([1], Abbildung 1) liegt als Binary vor, das beim Aufruf neben optionalen Parametern den Pfad zum Accesslog des Webservers erwartet. Als Ausgabe erzeugt der Log-Analizer HTML-Seiten mit eingebundenen Grafiken. Erfolgt der Aufruf von Webalizer regelmäßig über einen Cronjob, lassen sich die aktuellen Statistiken über den Webserver ohne Konsolenzugriff auf den Server-Rechner abrufen. Da das unter [1] erhältliche Static Binary ohne weitere Konfiguration mit der Apache-Access-Logdatei arbeitet, ist der seit 2002 nicht mehr weiterentwickelte Webalizer nach wie vor die schnellste Methode, um eine Besucherstatistik zu erzeugen.
Abbildung 1: Veteran mit deutlich sichtbarer Altersschwäche: Features wie zum Beispiel das Ausfiltern von Suchmaschinen-Bots sowie eine Analyse der Aufenthaltsdauer der Besucher fehlen.
Die Einstiegsseite von Webalizer schlüsselt den Traffic eines Jahres nach Monaten auf. Die Software differenziert dabei zwischen Hits (Anfragen an den Webserver), Files (Anzahl der übertragenen Dateien inklusive Grafiken), Pages (Anzahl der ausgelieferten Seiten) und den Visits (Anzahl der Besucher mit unterschiedlicher IP). Außerdem überwacht der Monitor die Antwortcodes des Servers: Gibt es Einträge mit 404-Rückgabewert, deutet dies auf ungültige Links innerhalb der Seite hin.
Die Jahrestabelle enthält Links auf die Statistiken der einzelnen Monate. Webalizer kennzeichnet die Tabellenspalten farbig und zeichnet Balkengrafiken. Leider gibt es keine Wochenübersicht, sodass es dem Benutzer überlassen bleibt, die Traffic-Einbrüche den Samstagen oder Sonn- und Feiertagen zuzuordnen. Außerdem weist Webalizer die Top 10 und Top 30 der Seiten aus, inklusive des Traffic, der auf deren Konto geht.
Überwacht
Den Verlauf des typischen Besuchs einer Webseite erfasst Webalizer nur über eine Top-8-Liste der Einstiegs- und Ausstiegsseiten. Die Einstiegsseite gibt, zusammen mit der Top-30-Liste der Referrer - also der Herkunftsseite, die der Browser angibt -, Auskunft darüber, welche Seiten über die Suchmaschinen besonders viele Besucher angezogen haben.
Bei der Referrer-Liste ist zu bedenken, dass ihre Werte vom Browser der Besucher stammen und unzuverlässig sind. Nicht alle Browser machen diese Angabe, unter Umständen schaltet auch der Benutzer die Übermittlung ab. Das gilt auch für die Top 5 der User Agents, also der Informationen über Browser und Betriebssystem. Auch hier können Besucher die Statistik verzerren. Beim Opera-Browser etwa lässt sich der Rückgabewert des User Agent leicht auf einen beliebigen Wert einstellen.