ich habe einen altdeutschen/fraktur Text, den ich mit OCR erkennen lassen möchte. Nun habe ich das Paket tesseract-ocr-deu-f gefunden und es installiert. Es scheint aber nicht zu funktionieren.
Ich habe jetzt mal geschaut und gesehen daß im Ordner
/usr/share/tesseract-ocr/tessdata/
Die Datei deu-f.freq-dawg ist nur 1 KB groß, wohingegen die Datei deu.word-dawg 1,1 MB groß ist. Die Fraktur-Datei scheint also nichts zu enthalten.
Und wenn ich in gscan2pdf den Eintrag -f wähle, was wohl für Fraktur stehen soll, dann bricht die Texterkennung sofort ab.
Habt Ihr Erfahrungen mit diesem Problem, bzw. könnt Ihr das so reproduzieren?
Viele Grüße Christopher
stalin2000 - 03.09.2012, 22:42 Uhr Titel: Tesseract - OCR mit Fraktur/Altdeutscher Schrift scheitert
Mit Debian-Wheezy-unterbau geht's jetzt sowhol mit gscan2pdf als auch mit gImageReader (http://sourceforge.net/projects/gimagereader/files/0.9/).
Also: Fraktur Deutsch wird einwandfrei erkannt. Die Erkennungsqualität ist sogar fast besser als bei lateinischer Schrift.