Das Wissensportal für IT-Professionals. Entdecke die Tiefe und Breite unseres IT-Contents in exklusiven Themenchannels und Magazinmarken.

SIGS DATACOM GmbH

Lindlaustraße 2c, 53842 Troisdorf

Tel: +49 (0)2241/2341-100

kundenservice@sigs-datacom.de

Tess4J – ein Wrapper für Tesseract

Hallo, wünschen Sie sich nicht auch manchmal, dass Bilder mit Text in Ihrer Java-Anwendung als Text weiterverarbeitet werden können. Wie wäre es zum Beispiel, wenn Sie einen eingescannten Lieferschein gleich dem Wareneingang in Ihrer Software zuweisen könnten, da Sie die Teilenummern erkannt haben (ja, ich komme aus der Logistik .-)). Inzwischen ist OCR ja weit verbreitet, aber gängige OCR-Engines sind zum Beispiel in C++ geschrieben. Abhilfe schafft hier Tess4J, das ich diesmal vorstellen möchte. Bis dann Thomas Ronzon .-)

Aller Anfang ist leicht

Um Texte zu scannen, müssen Sie zunächst einmal Tesseract auf Ihrem System installieren. Dies finden Sie hier [TESSA].

Bei meiner opensuse-Distribution waren die Binaries sogar in den Standard-Repositories enthalten – die Installation also entsprechend einfach. Als Java-Entwickler müssen Sie nun Tess4J hier [TES-S4J] herunterladen und in einem beliebigen Verzeichnis entpacken.

Das erste Beispiel

Um die Engine zu testen, habe ich zunächst einmal einen Ausschnitt aus einer …