Das Ocropus-Projekt unter der Leitung von Professor Thomas Breuel am DFKI (deutsches Forschungszentrum für künstliche Intelligenz) hat eine erste Version seiner unter der Apache-Lizenz verfügbaren OCR-Engine freigegeben.
Die erste Release des von Google mitfinanzierten Projekts kombiniert die ursprünglich von HP entwickelte Engine Tesseract mit einer Layout-Erkennung und überprüft den erkannten Text mit Aspell. Sowohl Ocropus als auch das enthaltene Tesseract sind für Ubuntu 6.10 getestet, sollen jedoch nach Angabe der Entwickler ohne oder mit geringen Anpassungen auf allen modernen Linux-Distributionen laufen.
Die für Quartal drei 2007 geplante Alpha-Release soll neben dem als Plugin integrierten Tesseract eine Zeichenerkennung enthalten, die auf einem neuronalen Netzwerkalgorithmus basiert. Zudem verbessert ein auf der Statistik-Bibliothek OpenFST aufbauendes Sprachmodell die Erkennungsgenauigkeit.



