Open Source im professionellen Einsatz

© Sherri Camp, Fotolia.de

Freie OCR-Software im Test

Nachlese

Vor gut zwei Jahren wirkte der Landstrich OCR-Software auf der Karte der freien Softwarewelt allenfalls dünn besiedelt. Dank zweier Open-Source-Releases ehemals kommerzieller Engines, Tesseract und Cuneiform, hat sich dies geändert.

Vor zweieinviertel Jahren, im Linux-Magazin 12/06, hat schon einmal eine Bitparade freie OCR-Software getestet. Standen damals Fragen wie "Erkennt die Software Umlaute?" im Mittelpunkt und konnte der Anwender froh sein, wenn Scannen und anschließendes Korrekturlesen im Vergleich zum Eintippen überhaupt Zeit sparte, so spielt freie OCR-Software inzwischen in einer anderen Liga: Bei qualitativ guten Vorlagen ist eine praktisch fehlerfreie Erkennung die Messlatte, deutsche Umlaute oder französische Akzente zu erkennen ist selbstverständlich. Auch Text in Spalten ist für freie Software keine Hexerei mehr.

Freigelegt

Die Fortschritte bei der freien OCR-Software gehen zu einem guten Teil aufs Konto der Open-Source-Release einer ehemals kommerziell erfolgreichen Engine, Cuneiform [1]. Doch auch die Entwicklung der von Google gesponserte freie Texterkennungssoftware Tesseract [2], die sich Ende 2006 noch nicht für deutsche Texte eignete, ist ein gutes Stück vorwärts gekommen. Mit Ocropus [3] liegt zudem eine experimentelle Layout-Erkennungs-Software für Tesseract vor. Cuneiform integriert die Layout-Erkennung bereits in die OCR-Engine.

Cuneiform

Cognitive Technologies, ein russischer Software-Hersteller, ehemals direkter Konkurrent der Finereader-Engine von Abbyy, hat seine OCR-Engine nach einiger Zeit des Stillstands bei der Entwicklung als Freeware und schließlich als Open-Source-Software freigegeben. Gegenwärtig steht Cuneiform unter der BSD-Lizenz, eine Release unter der GPL ist geplant.

Seit August 2008 gibt es auf Launchpad-Net [4] einen Linux-Port der freien Engine, inzwischen liegt Version 0.5 vor. Eine Entwicklerfassung spielt die Versionsverwaltung Bazaar mit »bzr branch lp:cuneiform-linux« auf die Festplatte. Im Test auf Ubuntu 8.04 ließ sich die Software ohne Probleme übersetzen, dank des verlässlichen Buildsystems Cmake ist der Erfolg wohl reproduzierbar.

Die Cuneiform-Engine versteht unter anderem die Sprachen Englisch, Deutsch, Französisch, Spanisch, Italienisch, Portugiesisch, Niederländisch, Russisch, Dänisch, Schwedisch und Finnisch. Sie führt außerdem eine Layoutanalyse durch, sodass die Erkennung auch in Spalten angeordneten Text nicht durcheinanderwürfelt. Das Ergebnis einer Layout-Erkennung gibt die Software im Hocr-Format wieder, einem etablierten HTML-ähnlichen Markup-Format, das Firefox fehlerfrei anzeigt.

Diesen Artikel als PDF kaufen

Express-Kauf als PDF

Umfang: 4 Heftseiten

Preis € 0,99
(inkl. 19% MwSt.)

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook