OCR und Linux?!

Kein Problem …

… Da ging er hin der Windowsrechner und mit ihm auch die Uralt-OCR-Software. Ist zunächst auch nicht aufgefallen, da erstmal keine Texte zu scannen waren. Zaghafte Versuche mit gocr scheiterten ob der miserablen Erkennungsrate – nicht zu gebrauchen.

Dann auf einmal doch mal wieder ein Text zu scannen und erkennen …

Lösung

tesseract-ocr überrascht auf ganzer Linie:

In Ubuntu 9.04 per Synaptic-Paketverwaltung mit dem entsprechenden Sprachpaket installiert,
den eingescannten Text im .tif – Format gespeichert,
ein beherztes
...:> tesseract textgrafik.tif ergebnisdateiname -l deu
generiert eine Datei ergebnisdateiname.txt … und fertig!

Die Erkennungsrate ist sehr gut (besser als bei dem schon wirklich zufriedenstellenden alten Win-OCR-Programm) und das Programm ist schnell.

Nachteil: Text-Layouts werden nicht abgebildet.

Spaltensatz müsste also mittels GIMP o. ä. getrennt und untereinander kopiert bzw. Spaltengrafik für Spaltengrafik eingescannt werden.

Aufbauend auf tesseract, soll OCRopus die Analyse des Dokumentenlayouts beherrschen. Werde ich bei Gelegengheit ausprobieren, wenn mal wieder Text zu erkennen ist.