Cebit 2012: Software versteht Sätze, erkennt Fälschungen und testet Programme
Der in Cebit-Halle 26 verlegte Themenbereich Forschung zeigt eine Vielzahl interessanter Anwendungen von Linux und freier Software.
Unter anderem präsentiert dort das Deutsche Forschungszentrum für künstliche Intelligenz ( DFKI) eine Lösung für satzsemantischen Suche. Die Anwendung TAKE Searchbench durchsucht 22.500 wissenschaftliche Aufsätze, die 4,3 Millionen Sätze enthalten. Dabei beherrscht sie, wovon viele Suchmaschinenbenutzer nur träumen können, derzeit allerdings nur auf Englisch: So kann der Anwender einfache Satzausssagen formulieren, die die Engine mit Hilfe von Synonymwörterbüchern erweitert und in den Dokumenten sucht. Dabei berücksichtigt sie auch Antonyme (Gegensätze) und Verneinungen und lässt sich auf verschiedene Schärfestufen einstellen, wie der Informatiker Ulrich Schäfer am Stand F42 demonstriert.
Die Suchsoftware von Christian Spurk (links) und Ulrich Schäfer (rechts) kann auch darstellen, wie wissenschaftliche Aufsätze einander zitieren.
Hinter dieser Leistung steckt eine Menge Open-Source-Software wie beispielsweise die Suchmaschine Apache Lucene. Der Computerlinguist Christian Spurk hat ihren Code erweitert, damit sie nicht nur mit einfachen Key-Value-Paaren, sondern auch mit Satzgebilden umgehen kann. Die aufwändige Indizierung des PDF-Zeitschriftenarchivs der Association for Computational Linguistics (ACL) erfolgte auf einem Linux-Grid. Die Archiv-Suche mit Searchbench lässt sich auf einer öffentlichen Webseite ausprobieren.
Gleich nebenan zeigt der DFKI-Mitarbeiter Joost van Beusekom an einem Ubuntu-Rechner, wie sich gefälschte Rechnungen per Software aufspüren lassen. In großen Firmen wie etwa Versicherungen werden solche Dokumente beim Eingang eingescannt, die Sachbearbeiter sehen meist nur noch den Scan oder die enthaltenen Daten. Um die im Zeitalter von Kopierern, Computern und Druckern leicht anzufertigenden Fälschungen aufzuspüren vergleicht die Software die Position von Layoutelementen wie etwa dem Briefkopf mit Referenzdokumenten. Dabei kommen einige Techniken aus der freien OCR-Software Ocropus zum Einsatz.
Unter den in Halle 26 vertretenen Hochschulen ist auch die Universität des Saarlandes (Stand F34). Dort arbeitet der Informatik-Doktorand Florian Groß. Seine Software Extsys testet Java-GUI-Programme (AWT und Swing) auf Fehler, die auch einem menschlichen Bediener unangenehm auffallen könnten. Das Programm sucht dazu die Bedienelemente der GUI-Bibliothek aus dem Bytecode heraus und macht Eingaben, die es mit Hilfe genetischer Algorithmen ständig modifiziert, wobei es die auftretenden Fehler aufzeichnet. Dieses evolutionäre Testen deckt den Code sehr weit ab, ignoriert aber gleichzeitig Codeblöcke, die nie aufgerufen werden. Derzeit sind auch Implementierungen für Dotnet und Java auf Androids Dalvik-Engine in Entwicklung.
Während fast alle Forschungseinrichtungen freie Software zumindest in Teilbereichen einsetzen, tun sie sich offensichtlich schwer damit, selbst Arbeitsergebnisse als Open Source freizugeben - auch wenn die Forscher persönlich das am liebsten sehen würden. Wirtschaftliche Erwägungen legen meist die Refinanzierung durch Zusammenarbeit mit der Industrie nahe. Florian Groß zumindest möchte seine Testsoftware in den kommenden Monaten unter einer freien Lizenz veröffentlichen.





