Open Source im professionellen Einsatz

© Sean_Nel, 123RF.com

Die Abbyy-OCR-Engine für Linux im Test

Richtig gelesen?

Fehler sind bei optischer Schrifterkennung meist garantiert. Ob sich das mit der seit Anfang März für Linux-Anwender verfügbaren OCR-Engine Finereader ändert, prüft dieser Test.

Bei der Mustererkennung verweist das menschliche Gehirn - anders als beim Rechnen mit mathematischer Formeln - den schnellsten Rechner mühelos in die Schranken. OCR (Optical Character Recognition) erreicht bis heute keine hundertprozentige Erkennungsgenauigkeit, auch wenn sie diesem Ideal inzwischen nahe kommt. Doch eingescannte Bitmaps in Text zu verwandeln bringt handfeste Vorteile: Textdateien lassen sich durchsuchen und maschinell auswerten.

Seit März bietet Abbyy [1] seine renommierte OCR-Engine Finereader als Einzelplatz-Lizenz für Linux an [2]. Wie schon das seit einigen Jahren verfügbare Linux-SDK mit Volumenlizenzen für Entwickler enthält es nur ein Kommandozeilen-Tool, aber keine grafische Scansoftware, wie sie von Windows her bekannt ist.

Abbyy Finereader Engine CLI
für Linux

Kategorie: OCR-Software

Hersteller: Abbyy [http://www.abbyy.com]

Preis, Lizenz: Die Version 8.0 kostet 150 Euro für 12000 Seiten/Jahr, 3500 Euro für 500000 Seiten. Eine Version ohne Seitenzahlbeschränkung (ohne Preisangabe) ist erhältlich. Abschaltung nach Erreichen des Limits.

SDK: Seit Mai 2010 auch für Linux in Version 9.0 erhältlich, ab 4900 Euro für drei Entwickler. Unterzeichnen eines NDA erforderlich.

Lauffähig: Nach Herstellerangaben Fedora 10 bis 12, SLES 10 bis 11, Open Suse 10.3 bis 11.1, Debian 4 und 5, Ubuntu 6.06 bis 8.04, im Test auch auf Ubuntu 9.10.

Merkmale: Robuste Texterkennung bei Vorlagen in schlechter Qualität, Layout-Erkennung für Magazinseiten und Formulare geeignet.

Sandwich-PDFs: Aus gescannten Bitmaps und exakt darüber platziertem, unsichtbarem OCR-Text (durchsuchbar, indizierbar).

Cuneiform für
Linux

Kategorie: OCR-Software

Hersteller: Cognitive Technologies [http://www.cuneiform.ru/eng/]

Linux-Port: [https://launchpad.net/cuneiform-linux]

Lizenz: Simplified BSD License

Merkmale: Gute Ergebnisse bei qualitativ hochwertigen Scans, Layout-Erkennung bewältigt Magazinseiten ohne Tabellen.

Sandwich-PDFs: Über Exactimage [3]

Die Abbyy-Software enthält einen Seitenzähler, und so schwanken die Lizenzgebühren je nach erlaubter Seitenzahl pro Jahr zwischen 150 Euro und 3500 Euro. Der Kasten "Abbyy Finereader Engine CLI für Linux" zeigt den Leistungsumfang und die Lizenzgebühren im Detail. Mit seinem Angebot zielt Abbyy offensichtlich vorwiegend auf den Unternehmensbereich ab. Aber wer kommerziell mit eingescannten Texten arbeitet, rechnet Lizenzgebühren, Software-Aktivierung und das für Linux-Anwender gewöhnungsbedürftige Abschalten der Software beim Erreichen des Seitenzahllimits nüchtern gegen den Nutzwert auf.

Freiheitsliebend

Beim Abwägen des Kosten-Nutzen-Faktors liegt es nahe, die Abbyy-Software mit den führenden freien OCR-Lösungen zu vergleichen. Aber so viele gibt es da gar nicht: Der einzige ernsthafte Mitbewerber ist Cuneiform (siehe Kasten "Cuneiform für Linux"). Nur dieser einst kommerzielle Konkurrent von Abbyy, der inzwischen als quelloffene Software mit Linux-Port für die Kommandozeile vorliegt, beherrscht das Einlesen von mehrspaltigen Texten ausreichend gut.

Das Ocropus-Projekt, eine weitere OCR-Lösung aus dem universitären Umfeld mit Layout-Erkennung auf Basis des ebenfalls ehemals kommerziellen Tesseract, befindet sich noch in einem frühen Entwicklungsstadium. Gocr [4] und Ocrad [5], beide von Anfang an Teile der Open-Source-Welt, bieten bisher keine ausreichend leistungsfähige Layout-Erkennung und schneiden bei der Erkennungsgenauigkeit viel schlechter ab [6].

Sieg durch K.o.

Den Einstieg für den Test bildet eine optimale OCR-Vorlage - ein einspaltiger Text auf glattem Druckpapier. Der Scan hat eine Auflösung von 300 dpi in Graustufen, ist gerade und weist einen hohen Kontrast auf (Abbildung 1). Abbyy konvertiert dieses Bitmap fehlerfrei. Auch die freie Cuneiform-Engine schlägt sich ganz gut: Lediglich eine geschweifte statt einer runden Klammer und ein überzähliges Leerzeichen trüben das Bild. Die Erkennung erfolgte bei beiden Engines mit Beschränkung der Erkennungssprache auf Deutsch und HTML als Ausgabeformat. Anders als bei bloßem Text geben beide Engines die Kursivschrift korrekt wieder. Die Abbyy-Engine wählt außerdem wie die Vorlage eine Serifenschrift.

Abbildung 1: Eine einspaltige Vorlage in optimaler Scanqualität mit kontrastreichen, scharfen Buchstabenkanten bewältigt Abbyy ganz ohne, das freie Cuneiform mit zwei Erkennungsfehlern.

Abbildung 1: Eine einspaltige Vorlage in optimaler Scanqualität mit kontrastreichen, scharfen Buchstabenkanten bewältigt Abbyy ganz ohne, das freie Cuneiform mit zwei Erkennungsfehlern.

Der Test mit einer einspaltigen Vorlage gibt aber den typischen Büroalltag nicht wirklich wieder. Der Text der zu verarbeitenden Dokumente fließt meist in Spalten, die Seiten enthalten Bilder, das eine oder andere Blatt weist einen Knick oder eine Verschmutzung auf. Die Schriftarten wechseln ebenso wie die Schrift- und Hintergrundfarben.

Der nächste Test, der Farbscan einer Linux-Magazin-Seite in 300 dpi Auflösung, trägt dem Rechnung. Die Seite enthält farbigen Hintergrund, das Druckpapier sorgt für einiges Rauschen im Scan-Ergebnis (Abbildung 2, Ausschnittsvergrößerung). Außer dem Spaltensatz erschwert vor allem die enthaltene Tabelle die Texterkennung.

Die Erkennungsergebnisse von Abbyy und Cuneiform unterscheiden sich stark: Die Abbyy-Engine bleibt bis auf einige Überläufe der Tabellenzellen fehlerfrei (Abbildung 2, Mitte). Diese entfallen bei reinem Text oder PDF als Ausgabeformat. Cuneiform dagegen kann mit dem Text vor hellblauem Hintergrund in der Tabelle nichts mehr anfangen (Abbildung 2, rechts). Auch die Reihenfolge der Textblöcke im Spaltensatz ist durcheinandergeraten, der Seitenaufbau hat die Layout-Erkennung völlig überfordert.

Abbildung 2: Bei der eingebetteten Tabelle scheidet sich die Spreu vom Weizen: Mit dem Tabellentext vor blauem Hintergrund ist Cuneiform restlos überfordert.

Abbildung 2: Bei der eingebetteten Tabelle scheidet sich die Spreu vom Weizen: Mit dem Tabellentext vor blauem Hintergrund ist Cuneiform restlos überfordert.

Diesen Artikel als PDF kaufen

Als digitales Abo

Als PDF im Abo bestellen

comments powered by Disqus

Ausgabe 07/2013

Preis € 6,40

Insecurity Bulletin

Insecurity Bulletin

Im Insecurity Bulletin widmet sich Mark Vogelsberger aktuellen Sicherheitslücken sowie Hintergründen und Security-Grundlagen. mehr...

Linux-Magazin auf Facebook