Vor zweieinviertel Jahren, im Linux-Magazin 12/06, hat schon einmal eine Bitparade freie OCR-Software getestet. Standen damals Fragen wie "Erkennt die Software Umlaute?" im Mittelpunkt und konnte der Anwender froh sein, wenn Scannen und anschließendes Korrekturlesen im Vergleich zum Eintippen überhaupt Zeit sparte, so spielt freie OCR-Software inzwischen in einer anderen Liga: Bei qualitativ guten Vorlagen ist eine praktisch fehlerfreie Erkennung die Messlatte, deutsche Umlaute oder französische Akzente zu erkennen ist selbstverständlich. Auch Text in Spalten ist für freie Software keine Hexerei mehr.
Freigelegt
Die Fortschritte bei der freien OCR-Software gehen zu einem guten Teil aufs Konto der Open-Source-Release einer ehemals kommerziell erfolgreichen Engine, Cuneiform [1]. Doch auch die Entwicklung der von Google gesponserte freie Texterkennungssoftware Tesseract [2], die sich Ende 2006 noch nicht für deutsche Texte eignete, ist ein gutes Stück vorwärts gekommen. Mit Ocropus [3] liegt zudem eine experimentelle Layout-Erkennungs-Software für Tesseract vor. Cuneiform integriert die Layout-Erkennung bereits in die OCR-Engine.
Cuneiform
Cognitive Technologies, ein russischer Software-Hersteller, ehemals direkter Konkurrent der Finereader-Engine von Abbyy, hat seine OCR-Engine nach einiger Zeit des Stillstands bei der Entwicklung als Freeware und schließlich als Open-Source-Software freigegeben. Gegenwärtig steht Cuneiform unter der BSD-Lizenz, eine Release unter der GPL ist geplant.
Seit August 2008 gibt es auf Launchpad-Net [4] einen Linux-Port der freien Engine, inzwischen liegt Version 0.5 vor. Eine Entwicklerfassung spielt die Versionsverwaltung Bazaar mit »bzr branch lp:cuneiform-linux« auf die Festplatte. Im Test auf Ubuntu 8.04 ließ sich die Software ohne Probleme übersetzen, dank des verlässlichen Buildsystems Cmake ist der Erfolg wohl reproduzierbar.
Die Cuneiform-Engine versteht unter anderem die Sprachen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Dänisch, Schwedisch und Finnisch. Sie führt außerdem eine Layoutanalyse durch, sodass die Erkennung auch in Spalten angeordneten Text nicht durcheinanderwürfelt. Das Ergebnis einer Layout-Erkennung gibt die Software im Hocr-Format wieder, einem etablierten HTML-ähnlichen Markup-Format, das Firefox fehlerfrei anzeigt.
« Zurück
1
2
3
4
5
Weiter »