Wer sich noch an die Zeit erinnert, in der das papierlose Büro greifbar nahe schien, darf sich bereits als alter Hase in der an Versprechungen reichen EDV-Welt fühlen. Dennoch bringt digitales Dokumentenmanagement unbestreitbare Vorteile: Im Computer archivierte Briefe oder Rechnungen brauchen wenig Platz und lassen sich leicht verschlagworten. Der Zugriff über das Netzwerk erspart den Abstieg in den Archivkeller.
In der Box
Die Archivista-Box des gleichnamigen Herstellers [1], ein Bundle aus Rechner, Scan-, OCR- und Archivsoftware und einem Avision-Einzugscanner (Abbildung 1), tritt als Komplettlösung für die Digitalisierung großer Dokumentenmengen an: Das Einsteigermodell Rigi (1990 Euro) eignet sich mit seinem Einzugscanner AV 220 nach Herstellerangaben für zehn bis 1000 Einzelblätter pro Tag, die über 7300 Euro teure Archivista-Box Eiger mit dem leistungsfähigen Scanner AV 3850 für 500 bis 2500 Seiten. Diese Kombination besteht aus zwei baugleichen Spiegelservern sowie einem Bandlaufwerk.
Abbildung 1: Komplettlösung im Test: Die Archivista-Box Rigi besteht aus einem kleinformatigen Industrie-PC und einem Einzugscanner Avision AV 220.
Im Preis für das geteste Einsteigermodell sind neben dem etwa 700 bis 750 Euro teuren Scanner ein zirka 25 mal 15 mal 7 Zentimeter großer Industrie-PC mit einem Celeron-2-GHz-Prozessor von Intel und 256 MByte RAM, die vorinstallierte Software sowie die kommerzielle Fine Reader OCR-Engine [3] enthalten. Die Festplatte ist 40 MByte groß. Die Leistung des Rechners reicht aus, um etwa fünf Seiten pro Minute in ein PDF zu packen und den Text zu erkennen.
Der Box-PC besitzt Anschlüsse für PS-2-Maus und -Tastatur, eine parallele und eine serielle Schnittstelle, einen VGA-Adapter, drei USB- sowie einen Firewire-Port. Das System auf der Box basiert auf T2-Linux [2]. Wie unter aktuellen Linux-Distributionen üblich erkennt das System viele externe USB- und Firewire-Komponenten, sodass sich die Ports des Box-PC außer für den Anschluss des Scanners auch für Erweiterungen wie Bandlaufwerke oder externe Festplatten nutzen lassen. Die Software automatisiert tägliche Backups auf USB-Speichermedien oder übers Netzwerk.
Bei der Bedienung setzt Archivista wahlweise auf ein Webfrontend (Abbildung 2) oder einen Windows-Client. Beide Varianten durchsuchen das Archiv, editieren die Schlagwörter der Akten und stoßen einen Scanvorgang an. Der Windows-Client übertrifft des Webfrontend an Bedienkomfort. Am Webclient stört, dass jeder Klick auf ein Bedienelement ein Neuladen der Seite auslöst. Nach eigenen Angaben arbeitet der Hersteller aber daran, diesen Nachteil durch den Einsatz von Ajax zu beseitigen.
Abbildung 2: Das Webfrontend der Archivista-Box ist in seiner schlichten Gestaltung übersichtlich, könnte jedoch bei kleiner Auflösung besser skalieren.
Freie Alternativen?
Bei einem Bundle-Preis ab 2000 Euro stellt sich die Frage, ob sich eine gleichwertige Lösung nicht mit Hilfe freier Softwarekomponenten günstiger realisieren ließe, es herrscht ja kein Mangel an quelloffenen Dokumentenmanagement-Lösungen. Die Archivista-Software selbst steht seit Herbst letzten Jahren unter der GPL. Weitere freie Alternativen sind Epiware [4] und Contineo [5]. Mehrseitige PDFs, die sich dank des praktischen und plattformübergreifend verfügbaren Acrobat Reader am besten als Format für eingescannte Dokumente eignen, erstellt Xsane unter Linux mit wenigen Mausklicks.
Was jedoch freie Lösungen und die auch unabhängig von der Hardware verfügbare kostenpflichtige Version der Archivista-Software [6] unterscheidet, ist die OCR-Engine: Freie, qualitativ hochwertige OCR-Lösungen gibt es zurzeit nicht [7]. Auch zur GPL-Version von Archivista gibt es keine OCR-Lizenz.
Die PDFs, die Xsane oder andere nicht kommerzielle Scanlösungen erstellen, reihen lediglich seitenfüllende Bitmaps aneinander. Kommerzielle OCR-Engines wie die Fine Reader Engine von Abby [3] nutzen das PDF-Format intelligenter: Sie hinterlegen das Bitmap eines Scan wie ein Sandwich mit dem maschinell erkannten Text. Solche PDFs lassen sich nach Schlagworten durchsuchen. Markiert der Anwender ein Wort mit dem Textauswahlwerkzeug, deckt sich die Auswahl im Idealfall genau mit der Position des Wortes im sichbaren Bitmap (Abbildung 3). Die lizenzpflichtige Archivista-Software erstellt solche PDFs und indiziert den erkannten Text für eine Volltextsuche.
Abbildung 3: Text kopieren aus eingescannten Bitmaps: Die sandwichartige Text- und Grafikkombination professioneller OCR-Engines macht's möglich.