kanotix.com :: Thema anzeigen - Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert

kanotix.com

Anwendungen - Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert

stalin2000 - 11.06.2011, 10:12 Uhr
Titel: Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert

Hallo Ihr,

ich habe einen altdeutschen/fraktur Text, den ich mit OCR erkennen lassen möchte. Nun habe ich das Paket tesseract-ocr-deu-f gefunden und es installiert. Es scheint aber nicht zu funktionieren.

Ich habe jetzt mal geschaut und gesehen daß im Ordner
/usr/share/tesseract-ocr/tessdata/

Die Datei deu-f.freq-dawg ist nur 1 KB groß, wohingegen die Datei deu.word-dawg 1,1 MB groß ist. Die Fraktur-Datei scheint also nichts zu enthalten.

Und wenn ich in gscan2pdf den Eintrag -f wähle, was wohl für Fraktur stehen soll, dann bricht die Texterkennung sofort ab.

Habt Ihr Erfahrungen mit diesem Problem, bzw. könnt Ihr das so reproduzieren?

Viele Grüße Christopher

stalin2000 - 03.09.2012, 22:42 Uhr
Titel: Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert

Mit Debian-Wheezy-unterbau geht's jetzt sowhol mit gscan2pdf als auch mit gImageReader (http://sourceforge.net/projects/gimagereader/files/0.9/).

Also: Fraktur Deutsch wird einwandfrei erkannt. Die Erkennungsqualität ist sogar fast besser als bei lateinischer Schrift.