Während kommerzielle Texterkennungsprogramme längst die Schrift auf Scans nahezu fehlerfrei einlesen und selbst das Seitenlayout des Originals beibehalten, existierten lange Zeit keine konkurrenzfähigen freien Alternativen. Ende August kündigte Google die Release von Tesseract an, seiner freien Optical Character Recognition Engine. Am vierten Oktober erschien Version 1.0.2. Zeit für eine Neubewertung: Wie praxistauglich sind quelloffene Texterkennungssysteme unter Linux?
Außer Tesseract prüft dieser Artikel die freien OCR-Programme Gocr [1] und Ocrad [2] aus dem Gnu-Projekt. Alle drei Anwendungen wandeln Bitpmaps ohne vorausgehendes Training in Textdateien um. Neben diesen nicht trainierbaren OCR-Anwendungen gibt es mit Clara OCR [3] eine freie Software, die Bitmaps erst nach dem Eintippen eines Teils des gescannten Texts übersetzt. Da Clara OCR wegen dieser aufwändigen Vorbereitung nur unter bestimmten Umständen (Erkennung vieler Dokumente mit gleicher Schriftart) eine zeitsparende Alternative zum Eintippen bietet, blieb die trainierbare OCR-Lösung in dieser Bitparade außen vor. Stichproben ergaben außerdem, dass Clara OCR in der vorliegenden Version keine brauchbare Ergebnisse liefert.
Auf der Höhe der Zeit?
Zum Vergleich bezieht der Test eine kommerzielle Engine ein: Die Gegenüberstellung mit dem 2400 US-Dollar teuren OCR Shop XTR von Vividata [6] zeigt, wie sich die freien OCR-Programme im Vergleich mit Profilösungen schlagen (siehe Kasten "Im Vergleich: OCR Shop XTR"). Zwei kommerzielle Anbieter von OCR-Anwendungen unter Windows, Nuance (Omnipage, [4]) und Abby (Finereader, [5]), stellen seit kurzem auch ein SDK für Linux bereit.
|
OCR kann richtig Zeit sparen: Die Profi-Lösung OCR Shop XTR von Vividata [5] leistet sich außer beim Scan der Kopie mit Artefakten fast keine Fehler: Lediglich beim um 0,5 Grad gedrehten Text erkennt das Programm beim unterstrichenen deutschen Wort "Englischer" einen Buschstaben nicht. Alle anderen Scans des Laserausdrucks setzte die Software ohne Aussetzer um.
OCR Shop XTR ist ein Commandline-Tool. Die englische Basisversion lässt sich um Sprachmodule für 56 verschiedene Sprachen erweitern. Außer Textdateien kann das OCR-System auch durchsuchbare PDFs erzeugen. Die Software erkennt außerdem Text in Spalten und das Layout der Vorlageseiten.
Abbildung 4: Außer beim Scan der qualitativ schlechten Kopie leistete sich die kommerzielle OCR-Engine OCR Shop XTR von Vividata nur einen Fehler beim um 0,5 Grad gedrehten Text.
|
Die Testanforderungen orientierten sich an der Praxis: Die Basis bildeten Scans eines Laserdrucks in 300 DPI mit einem älteren Flachbettscanner (Canon F915900). Die OCR-Software musste auch mit kopiertem und schräg in den Scanner eingelegtem Text zurechtkommen. Der Testtext enthält verschiedene Schriften (mit Serifen: Nimbus Roman, serifenlos: Arial) und Schriftgrößen sowie unterstrichenen und kursiven Text.
Gocr
Seit 2000 gibt es die Gocr-Projektseite auf Sourceforge [1]. Wer jedoch daraus schließt, bei Release 0.42 vom August 2006 handle es sich um ausgereifte Software, wird enttäuscht: Die Erkennungsleistung ist unter den beschriebenen Testbedingungen kaum gut genug, um gegenüber dem Abtippen Zeit zu sparen (Abbildungen 1, 2 und 3). Schon beim direkten Scan der Laserdruckvorlage macht Gocr zahlreiche Fehler. Vor allem bei nicht exakt gerade gescannten Texten schneidet die Texterkennungs-Software wesentlich schlechter ab als andere Engines: Bereits eine Drehung von 0,5 Grad verschlechtert die Erkennungsleistung erheblich. Mit dem um 5 Grad gedrehten Text kann die OCR-Engine überhaupt nichts mehr anfangen.
Abbildung 1: Weitgehend untauglich: Bereits beim direkten Scan des Laserdrucks leistet sich Gocr so viele Fehler (hier rot markiert), dass Abtippen effektiver wäre.
Abbildung 2: Statistisches Rauschen: Auf dem Scan der Fotokopie erkennt Gocr kaum noch ein Wort.
Abbildung 3: Völlig verdreht: Liegt die Vorlage nur um 0,5 Grad gedreht im Scanner, erkennt Gocr noch einzelne Wörter, bei 5 Grad Drehung ist die Erkennungsleistung null.
Gocr bringt ein einfaches, in Tcl/Tk geschriebenes GUI mit, das einen Zugriff auf Tuning-Optionen erlaubt, etwa einen Grenzwert für den Rauschfilter oder die Schwarz-Weiß-Schwelle. Leider gelang es auch hiermit nicht, die Erkennungsgenauigkeit wesentlich zu verbessern. Die beiden Scanprogramme Xsane [7] und Kooka [8] integrieren Gocr ebenfalls in eine grafische Oberfläche.
Immerhin erkennt das Programm als einziges der getesteten freien OCR-Systeme deutsche Umlaute. Gerade hier leistete sich die Software jedoch besonders viele Fehler: Es verwechselte bei Umlauten häufig Groß- und Kleinbuchstaben oder gab die Umlautpunkte als Anführungszeichen nach dem Buchstaben zurück.
|
|
|
|
Gocr
|
Ocrad
|
Tesseract
|
|
Features
|
|
|
|
|
Umlaute
|
ja
|
nein
|
nein
|
|
Text in Spalten
|
nein
|
ja
|
nein
|
|
Layouterkennung
|
nein
|
ja
|
nein
|
|
GUI
|
Tcl/Tk-Frontend,
Einbindung in Xsane
|
Einbindung in Xsane
|
nein
|
|
|
Erkennungsleistung
|
|
|
|
|
|
Laserdruck, Graustufen-Scan, 8 Bit
|
ausreichend
|
ausreichend
|
befriedigend
|
|
Laserdruck, SW-Scan, 1 Bit Farbtiefe (Tesseract 1.01)
|
ausreichend
|
ausreichend
|
gut
|
|
Kopie mit Artefakten
|
ungenügend
|
ungenügend
|
mangelhaft
|
|
Scan 0,5 Grad gedreht
|
ungenügend
|
mangelhaft
|
befriedigend
|
|
Scan 5 Grad gedreht
|
ungenügend
|
ungenügend
|
ausreichend
|