Как да използвате Tesseract OCR в Java

Съдържание

инструкции

Tesseract библиотеките за оптично разпознаване на символи предлагат на разработчиците начин да сканират документи и текст в изображение. Те се използват за съхраняване на изображения на документи, които вече не са ви необходими на хартия. Можете да ги използвате в Java, като създадете контролни контури за всеки знак и пишете всеки файл. За да използвате библиотеките на Tesseract, трябва да включите Java "пространство от имена" за OCR функциите.

инструкции

Библиотеките на Tesseract позволяват на потребителите да сканират документите си (Джон Фокс / Stockbyte / Getty Images)

Щракнете с десния бутон върху файла Java, който искате да използвате, за да създадете документа за разпознаване. Кликнете върху „Отвори с“ и изберете редактора на Java по ваш избор.
Добавете пространството от имена на OCR библиотеката в горната част на файла. Копирайте и поставете следния код в изходния си файл:

com.tplan.robot.imagecomparison.tesseractocr
Създайте кода, отговорен за сканиране на символи за файл. Например, следният код създава контури през всеки символ във файл и ги записва в файл с изображение:

(I = 1; {i} <{lines} +1; i = {i}) е набор от стойности, които се дефинират като: +1) {Typeline "{_TOCR_LINE {i}}"}
Кликнете върху бутона „Запазване“ на редактора и кликнете върху „Изпълни“, за да стартирате кода в компилатора на Java.