Abbildung 1: Sofa bietet eine intuitive Bedienoberfläche und will damit nicht nur professionelle Statistiker ansprechen, sondern auch Neulingen den Einstieg erleichtern.
Statistik? Da nehmen meist nicht nur Normalsterbliche Reißaus, auch abgebrühte Nerds sind mit diesem Teilgebiet der Mathematik häufig überfordert. Es gilt, gleich mehrere Hürden zu nehmen: Die graue Theorie, die sich oft nur durch stures Auswendiglernen verinnerlichen lässt, und dann noch die Bedienung der Software, die alles in die Praxis umsetzt - der Kopf- oder Taschenrechner ist heute auch in den Reihen der hartgesottenen Statistiker die Ausnahme.
Abhilfe in Sachen Software bietet R ([1], [2]). Seit 1992 empfiehlt sich die freie Umsetzung der Statistik-Programmiersprache S. Wer nicht zu den bedingungslosen Freunden spartanischer Kommandozeilentools gehört, kann allerdings selbst mit statistischem Hintergrundwissen im ersten Moment nicht viel mit R anfangen, denn es gilt, zunächst die Sprache selbst zu lernen.
Eine Alternative ist das kommerzielle Programm SPSS [3], das jedoch selbst von Studenten einen dreistelligen Betrag für die Lizenzierung fordert.
Statistik für alle
Freie Statistiksoftware mit intuitiver Oberfläche verspricht dagegen das Projekt Sofa (Statistics Open For All, [4]). Ziel ist, Statistikern ein leicht bedienbares Tool an die Hand zu geben. Darüber hinaus wollen die Entwickler um den Neuseeländer Grant Paton-Simpson mit Sofa auch Statistikneulinge in dieses schwierige Feld einführen (Abbildung 1).
Die Statistik ist wie andere Felder der Mathematik vor allem eine Hilfswissenschaft und wird in vielen Bereichen zur Interpretation empirischer Schätzungen eingesetzt. Beispielsweise kann man so anhand einer Folge von Ergebnissen berechnen, mit welcher Wahrscheinlichkeit ein Würfel gezinkt ist. Auch eine Voraussage für Sozialwissenschaftler ist möglich, um im Vorfeld zu sehen, ob eine Umfrage aussagekräftig ist oder lediglich Zufallswerte ausspuckt. Es gibt zahlreiche statistische Tests mit unterschiedlichen Stärken und Schwächen, die einzuordnen allerdings der Fachwelt vorbehalten bleibt.
Generell gelten derlei statistische Tests als unverzichtbar, weil die menschliche Intuition oftmals Fehleinschätzungen unterliegt. Ein anschauliches Beispiel hierfür ist der so genannte Monte-Carlo-Fehlschluss. Er führt zur fälschlichen Annahme von Zusammenhängen und daraus resultierenden Wahrscheinlichkeitsverschiebungen zwischen tatsächlich unzusammenhängenden Ereignissen - beispielsweise zwischen dem Ergebnis eines kommenden Würfelwurfs und den vorherigen Resultaten mit demselben Würfel.
Um solchen und komplexeren Problemen zu begegnen, unterstützt Sofa Standards wie Anova (Analysis of Variance, Varianzanalyse), Pearson's Chi-Square-Test, T-Tests und eine Reihe weiterer Verfahren. Außerdem liefert das Statistiktool grundlegende Werte wie Durchschnitt, Median, Standardabweichung, Summe, Maximum, Minimum und mehr für numerische Datenreihen.
Verwandlungskünstler
Wie erwähnt liegt die Stärke von Sofa nicht in der reinen Funktionalität - alle angeführten Features bieten R & Co. ebenfalls. Vielmehr überzeugt das freie Statistiktool durch seine bequeme Zugänglichkeit sowie seine Im- und Export-Möglichkeiten. Sofa liest Daten aus einer SQL-Datenbank (MySQL, SQLite und PostgreSQL), aus Open-Document-Spreadsheet-Dokumenten (wie sie unter anderem Open Office verwendet) und aus MS Access ein.
Ergebnisse präsentiert das Programm zum Beispiel im HTML-Format und setzt dabei auf Javascript, um gezielt Datenreihen bei Berührung mit der Maus hervorzuheben. So integriert der Anwender seine Statistiken direkt in eine Webseite. Alternativ überträgt er Ergebnisse aus Sofa per Copy & Paste nach Open Office Calc und Microsoft Excel.
Aussehen und Inhalt der Sofa-Berichte definiert der Benutzer mit wenigen Mausklicks (siehe Abbildung 2). Darüber hinaus automatisiert die Software den Output dank Python, sodass beispielsweise zusätzliche Daten direkt zu einem neuen Programm auf dem Weblog führen.
Abbildung 2: Sofa erstellt Berichte in verschiedenen Dateiformaten. Um einen Report zu generieren, wählt der Anwender lediglich die entsprechenden Daten und die Darstellungsform aus.