Aus Linux-Magazin 03/2007

Dokumente scannen samt OCR mit der Archivista-Box

Abbildung 1: Komplettlösung im Test: Die Archivista-Box Rigi besteht aus einem kleinformatigen Industrie-PC und einem Einzugscanner Avision AV 220.

In Aktenstapeln nach einem bestimmten Text suchen ist lästig und umständlich. Abhilfe versprechen Archivsysteme wie die Archivista-Box, ein Hardware-Bundle mit vorinstallierter Software. Der folgende Test prüft die Kombination aus Einzugscanner, Schrifterkennung und Dokumentenverwaltung.

Wer sich noch an die Zeit erinnert, in der das papierlose Büro greifbar nahe schien, darf sich bereits als alter Hase in der an Versprechungen reichen EDV-Welt fühlen. Dennoch bringt digitales Dokumentenmanagement unbestreitbare Vorteile: Im Computer archivierte Briefe oder Rechnungen brauchen wenig Platz und lassen sich leicht verschlagworten. Der Zugriff über das Netzwerk erspart den Abstieg in den Archivkeller.

In der Box

Die Archivista-Box des gleichnamigen Herstellers [1], ein Bundle aus Rechner, Scan-, OCR- und Archivsoftware und einem Avision-Einzugscanner (Abbildung 1), tritt als Komplettlösung für die Digitalisierung großer Dokumentenmengen an: Das Einsteigermodell Rigi (1990 Euro) eignet sich mit seinem Einzugscanner AV 220 nach Herstellerangaben für zehn bis 1000 Einzelblätter pro Tag, die über 7300 Euro teure Archivista-Box Eiger mit dem leistungsfähigen Scanner AV 3850 für 500 bis 2500 Seiten. Diese Kombination besteht aus zwei baugleichen Spiegelservern sowie einem Bandlaufwerk.

Abbildung 1: Komplettlösung im Test: Die Archivista-Box Rigi besteht aus einem kleinformatigen Industrie-PC und einem Einzugscanner Avision AV 220.

Abbildung 1: Komplettlösung im Test: Die Archivista-Box Rigi besteht aus einem kleinformatigen Industrie-PC und einem Einzugscanner Avision AV 220.

Im Preis für das geteste Einsteigermodell sind neben dem etwa 700 bis 750 Euro teuren Scanner ein zirka 25 mal 15 mal 7 Zentimeter großer Industrie-PC mit einem Celeron-2-GHz-Prozessor von Intel und 256 MByte RAM, die vorinstallierte Software sowie die kommerzielle Fine Reader OCR-Engine [3] enthalten. Die Festplatte ist 40 MByte groß. Die Leistung des Rechners reicht aus, um etwa fünf Seiten pro Minute in ein PDF zu packen und den Text zu erkennen.

Der Box-PC besitzt Anschlüsse für PS-2-Maus und -Tastatur, eine parallele und eine serielle Schnittstelle, einen VGA-Adapter, drei USB- sowie einen Firewire-Port. Das System auf der Box basiert auf T2-Linux [2]. Wie unter aktuellen Linux-Distributionen üblich erkennt das System viele externe USB- und Firewire-Komponenten, sodass sich die Ports des Box-PC außer für den Anschluss des Scanners auch für Erweiterungen wie Bandlaufwerke oder externe Festplatten nutzen lassen. Die Software automatisiert tägliche Backups auf USB-Speichermedien oder übers Netzwerk.

Bei der Bedienung setzt Archivista wahlweise auf ein Webfrontend (Abbildung 2) oder einen Windows-Client. Beide Varianten durchsuchen das Archiv, editieren die Schlagwörter der Akten und stoßen einen Scanvorgang an. Der Windows-Client übertrifft des Webfrontend an Bedienkomfort. Am Webclient stört, dass jeder Klick auf ein Bedienelement ein Neuladen der Seite auslöst. Nach eigenen Angaben arbeitet der Hersteller aber daran, diesen Nachteil durch den Einsatz von Ajax zu beseitigen.

Abbildung 2: Das Webfrontend der Archivista-Box ist in seiner schlichten Gestaltung übersichtlich, könnte jedoch bei kleiner Auflösung besser skalieren.

Abbildung 2: Das Webfrontend der Archivista-Box ist in seiner schlichten Gestaltung übersichtlich, könnte jedoch bei kleiner Auflösung besser skalieren.

Freie Alternativen?

Bei einem Bundle-Preis ab 2000 Euro stellt sich die Frage, ob sich eine gleichwertige Lösung nicht mit Hilfe freier Softwarekomponenten günstiger realisieren ließe, es herrscht ja kein Mangel an quelloffenen Dokumentenmanagement-Lösungen. Die Archivista-Software selbst steht seit Herbst letzten Jahren unter der GPL. Weitere freie Alternativen sind Epiware [4] und Contineo [5]. Mehrseitige PDFs, die sich dank des praktischen und plattformübergreifend verfügbaren Acrobat Reader am besten als Format für eingescannte Dokumente eignen, erstellt Xsane unter Linux mit wenigen Mausklicks.

Was jedoch freie Lösungen und die auch unabhängig von der Hardware verfügbare kostenpflichtige Version der Archivista-Software [6] unterscheidet, ist die OCR-Engine: Freie, qualitativ hochwertige OCR-Lösungen gibt es zurzeit nicht [7]. Auch zur GPL-Version von Archivista gibt es keine OCR-Lizenz.

Die PDFs, die Xsane oder andere nicht kommerzielle Scanlösungen erstellen, reihen lediglich seitenfüllende Bitmaps aneinander. Kommerzielle OCR-Engines wie die Fine Reader Engine von Abby [3] nutzen das PDF-Format intelligenter: Sie hinterlegen das Bitmap eines Scan wie ein Sandwich mit dem maschinell erkannten Text. Solche PDFs lassen sich nach Schlagworten durchsuchen. Markiert der Anwender ein Wort mit dem Textauswahlwerkzeug, deckt sich die Auswahl im Idealfall genau mit der Position des Wortes im sichbaren Bitmap (Abbildung 3). Die lizenzpflichtige Archivista-Software erstellt solche PDFs und indiziert den erkannten Text für eine Volltextsuche.

Abbildung 3: Text kopieren aus eingescannten Bitmaps: Die sandwichartige Text- und Grafikkombination professioneller OCR-Engines macht's möglich.

Abbildung 3: Text kopieren aus eingescannten Bitmaps: Die sandwichartige Text- und Grafikkombination professioneller OCR-Engines macht’s möglich.

OCR in der Praxis

Die OCR-Qualität der Archivista-Box überzeugt in den meisten Fällen. Ein Test mit einem Magazin-Artikel im Layout ergab für schwarzen Fließtext auf weißem Hintergrund Fehlerquoten in der Größenordnung von zwei Erkennungsfehlern pro Seite. Anders sah es allerdings aus, wenn der Kontrast zwischen Text und Hintergrund geringer war: Die Überschrift und der dunkelgrüne Beginn des Fließtextes überforderten die Texterkennung (Abbildung 4).

Abbildung 4: Gut, wenn auch nicht optimal: In dieser Montage von Scan und erkanntem Text (weiße Felder) ist zu erkennen, dass die OCR-Engine der Archivista-Box Probleme hat, wenn der Kontrast gering ist. Bei schwarzem Text auf weißem Hintergrund halten sich die Erkennungsfehler jedoch in Grenzen.

Abbildung 4: Gut, wenn auch nicht optimal: In dieser Montage von Scan und erkanntem Text (weiße Felder) ist zu erkennen, dass die OCR-Engine der Archivista-Box Probleme hat, wenn der Kontrast gering ist. Bei schwarzem Text auf weißem Hintergrund halten sich die Erkennungsfehler jedoch in Grenzen.

Im Test trat noch eine Schwäche zu Tage, die nicht der OCR-Engine von Abby anzulasten ist: Bei dem erkannten Text fehlten durchweg Umlaute und Akzente. Dieses Problem in der Archivista-Softwareversion, mit der die getestete Archivista-Box ausgeliefert wurde, löste nach Angaben des Herstellers ein Tippfehler im Quellcode aus. Er verhinderte, dass die Fine Reader Engine die Spracheinstellungen lud. Binnen eines Tages stand nach Rücksprache ein Bugfix zur Verfügung, das den Fehler korrigierte.

Für und Wider

Was für die Archivista-Box spricht, ist die Einbindung einer qualitativ hochwertigen OCR-Engine. Der Leistungsumfang der Archivsoftware selbst ist jedoch relativ begrenzt: Zwar fasst eine Box mehrere Archive. Die Archive selbst lassen sich jedoch nicht mehr untergliedern. Die Suchfunktion schließt allerdings auch den über OCR erfassten Text der archivierten Dokumente ein. Sie ermöglicht zudem die Verkettung mehrerer Anfragen mit logischen Operatoren. Bis zu einem gewissen Grad mag dies die Einschränkung bei der Gliederung des Archivs kompensieren. Eine in der Zahl der Hierarchie-Ebenen flexible Untergliederung würde in vielen Fällen dennoch eine gezielte Suche erleichtern.

Infos

[1] Archivista GmBH: [http://www.archivista.ch]

[2] T2-Linux: [http://www.t2-project.org/targets/archivista.html]

[3] Abby Fine Reader SDK: [http://www.abbyy.de/sdk/?param=55266]

[4] Epiware: [http://www.epiware.com]

[5] Contineo: [http://contineo.sourceforge.net]

[6] Kostenpflichtige Version der Archivista-Software: [http://www.archivista.ch/index.pl/preise]

[7] Peter Kreußel, “Freie Schrifterkennungs-Software”: Linux Magazin 12/06, S. 84

Copyright © 2002 Linux New Media AG

DIESEN ARTIKEL ALS PDF KAUFEN
EXPRESS-KAUF ALS PDFUmfang: 2 HeftseitenPreis €0,99
(inkl. 19% MwSt.)
LINUX-MAGAZIN KAUFEN
EINZELNE AUSGABE Print-Ausgaben Digitale Ausgaben
ABONNEMENTS Print-Abos Digitales Abo
TABLET & SMARTPHONE APPS Readly Logo
E-Mail Benachrichtigung
Benachrichtige mich zu:
0 Kommentare
Älteste
Neuste Beste Bewertung
Inline Feedbacks
Alle Kommentare anzeigen
Nach oben