Open Source im professionellen Einsatz

© Sherri Camp, Fotolia

Freie Schrifterkennungs-Software

Abc-Schützen

Nichts liegt näher, als stupide Arbeiten wie das Abtippen von Text dem Rechner zu überlassen. Seit vielen Jahren gibt es dafür Texterkennungs-Software. Dieser Artikel testet die Praxistauglichkeit der freien Engines und stellt ihnen die kommerzielle Lösung OCR Shop XTR von Vividata gegenüber.

Während kommerzielle Texterkennungsprogramme längst die Schrift auf Scans nahezu fehlerfrei einlesen und selbst das Seitenlayout des Originals beibehalten, existierten lange Zeit keine konkurrenzfähigen freien Alternativen. Ende August kündigte Google die Release von Tesseract an, seiner freien Optical Character Recognition Engine. Am vierten Oktober erschien Version 1.0.2. Zeit für eine Neubewertung: Wie praxistauglich sind quelloffene Texterkennungssysteme unter Linux?

Außer Tesseract prüft dieser Artikel die freien OCR-Programme Gocr [1] und Ocrad [2] aus dem Gnu-Projekt. Alle drei Anwendungen wandeln Bitpmaps ohne vorausgehendes Training in Textdateien um. Neben diesen nicht trainierbaren OCR-Anwendungen gibt es mit Clara OCR [3] eine freie Software, die Bitmaps erst nach dem Eintippen eines Teils des gescannten Texts übersetzt. Da Clara OCR wegen dieser aufwändigen Vorbereitung nur unter bestimmten Umständen (Erkennung vieler Dokumente mit gleicher Schriftart) eine zeitsparende Alternative zum Eintippen bietet, blieb die trainierbare OCR-Lösung in dieser Bitparade außen vor. Stichproben ergaben außerdem, dass Clara OCR in der vorliegenden Version keine brauchbare Ergebnisse liefert.

Auf der Höhe der Zeit?

Zum Vergleich bezieht der Test eine kommerzielle Engine ein: Die Gegenüberstellung mit dem 2400 US-Dollar teuren OCR Shop XTR von Vividata [6] zeigt, wie sich die freien OCR-Programme im Vergleich mit Profilösungen schlagen (siehe Kasten "Im Vergleich: OCR Shop XTR"). Zwei kommerzielle Anbieter von OCR-Anwendungen unter Windows, Nuance (Omnipage, [4]) und Abby (Finereader, [5]), stellen seit kurzem auch ein SDK für Linux bereit.

Im Vergleich: OCR Shop
XTR

OCR kann richtig Zeit sparen: Die Profi-Lösung OCR Shop XTR von Vividata [5] leistet sich außer beim Scan der Kopie mit Artefakten fast keine Fehler: Lediglich beim um 0,5 Grad gedrehten Text erkennt das Programm beim unterstrichenen deutschen Wort "Englischer" einen Buschstaben nicht. Alle anderen Scans des Laserausdrucks setzte die Software ohne Aussetzer um.

OCR Shop XTR ist ein Commandline-Tool. Die englische Basisversion lässt sich um Sprachmodule für 56 verschiedene Sprachen erweitern. Außer Textdateien kann das OCR-System auch durchsuchbare PDFs erzeugen. Die Software erkennt außerdem Text in Spalten und das Layout der Vorlageseiten.

Abbildung 4: Außer beim Scan der qualitativ schlechten Kopie leistete sich die kommerzielle OCR-Engine OCR Shop XTR von Vividata nur einen Fehler beim um 0,5 Grad gedrehten Text.

Abbildung 4: Außer beim Scan der qualitativ schlechten Kopie leistete sich die kommerzielle OCR-Engine OCR Shop XTR von Vividata nur einen Fehler beim um 0,5 Grad gedrehten Text.

Die Testanforderungen orientierten sich an der Praxis: Die Basis bildeten Scans eines Laserdrucks in 300 DPI mit einem älteren Flachbettscanner (Canon F915900). Die OCR-Software musste auch mit kopiertem und schräg in den Scanner eingelegtem Text zurechtkommen. Der Testtext enthält verschiedene Schriften (mit Serifen: Nimbus Roman, serifenlos: Arial) und Schriftgrößen sowie unterstrichenen und kursiven Text.

Gocr

Seit 2000 gibt es die Gocr-Projektseite auf Sourceforge [1]. Wer jedoch daraus schließt, bei Release 0.42 vom August 2006 handle es sich um ausgereifte Software, wird enttäuscht: Die Erkennungsleistung ist unter den beschriebenen Testbedingungen kaum gut genug, um gegenüber dem Abtippen Zeit zu sparen (Abbildungen 1, 2 und 3). Schon beim direkten Scan der Laserdruckvorlage macht Gocr zahlreiche Fehler. Vor allem bei nicht exakt gerade gescannten Texten schneidet die Texterkennungs-Software wesentlich schlechter ab als andere Engines: Bereits eine Drehung von 0,5 Grad verschlechtert die Erkennungsleistung erheblich. Mit dem um 5 Grad gedrehten Text kann die OCR-Engine überhaupt nichts mehr anfangen.

Abbildung 1: Weitgehend untauglich: Bereits beim direkten Scan des Laserdrucks leistet sich Gocr so viele Fehler (hier rot markiert), dass Abtippen effektiver wäre.

Abbildung 1: Weitgehend untauglich: Bereits beim direkten Scan des Laserdrucks leistet sich Gocr so viele Fehler (hier rot markiert), dass Abtippen effektiver wäre.

Abbildung 2: Statistisches Rauschen: Auf dem Scan der Fotokopie erkennt Gocr kaum noch ein Wort.

Abbildung 2: Statistisches Rauschen: Auf dem Scan der Fotokopie erkennt Gocr kaum noch ein Wort.

Abbildung 3: Völlig verdreht: Liegt die Vorlage nur um 0,5 Grad gedreht im Scanner, erkennt Gocr noch einzelne Wörter, bei 5 Grad Drehung ist die Erkennungsleistung null.

Abbildung 3: Völlig verdreht: Liegt die Vorlage nur um 0,5 Grad gedreht im Scanner, erkennt Gocr noch einzelne Wörter, bei 5 Grad Drehung ist die Erkennungsleistung null.

Gocr bringt ein einfaches, in Tcl/Tk geschriebenes GUI mit, das einen Zugriff auf Tuning-Optionen erlaubt, etwa einen Grenzwert für den Rauschfilter oder die Schwarz-Weiß-Schwelle. Leider gelang es auch hiermit nicht, die Erkennungsgenauigkeit wesentlich zu verbessern. Die beiden Scanprogramme Xsane [7] und Kooka [8] integrieren Gocr ebenfalls in eine grafische Oberfläche.

Immerhin erkennt das Programm als einziges der getesteten freien OCR-Systeme deutsche Umlaute. Gerade hier leistete sich die Software jedoch besonders viele Fehler: Es verwechselte bei Umlauten häufig Groß- und Kleinbuchstaben oder gab die Umlautpunkte als Anführungszeichen nach dem Buchstaben zurück.

Tabelle 1: Freie
OCR-Engines

 

 

Gocr

Ocrad

Tesseract

Features

 

 

 

Umlaute

ja

nein

nein

Text in Spalten

nein

ja

nein

Layouterkennung

nein

ja

nein

GUI

Tcl/Tk-Frontend,

Einbindung in Xsane

Einbindung in Xsane

nein

 

Erkennungsleistung

 

 

 

 

Laserdruck, Graustufen-Scan, 8 Bit

ausreichend

ausreichend

befriedigend

Laserdruck, SW-Scan, 1 Bit Farbtiefe (Tesseract 1.01)

ausreichend

ausreichend

gut

Kopie mit Artefakten

ungenügend

ungenügend

mangelhaft

Scan 0,5 Grad gedreht

ungenügend

mangelhaft

befriedigend

Scan 5 Grad gedreht

ungenügend

ungenügend

ausreichend

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook