JavaでTesseract OCRを使用する方法

著者: Eugene Taylor

作成日: 8 Aug. 2021

更新日: 13 11月 2024

JavaでTesseractOCRを使用する方法は？ |画像からテキストを抽出する — ビデオ: JavaでTesseractOCRを使用する方法は？ |画像からテキストを抽出する

コンテンツ

説明書

Tesseract光学式文字認識ライブラリは、開発者に文書やテキストをスキャンして画像にする方法を提供します。彼らはあなたがもはや紙に必要としない文書の画像を保存するために使用されます。 Javaでそれらを文字ごとに制御ループを作成してそれぞれをファイルに書き込むことで使用できます。 Tesseractライブラリを使用するには、OCR関数にJavaの「ネームスペース」を含める必要があります。

説明書

Tesseractライブラリにより、ユーザーは自分の文書をスキャンできます （John Foxx / Stockbyte / Getty Images）

OCR文書を作成するために使用したいJavaファイルを右クリックします。「アプリケーションから開く」をクリックして、選択したJavaエディタを選択します。
ファイルの先頭にOCRライブラリの名前空間を追加します。次のコードをコピーしてソースファイルに貼り付けます。

com.touch.robot.imagecomparison.tesseractocr
ファイルの文字をスキャンするためのコードを作成します。たとえば、次のコードは、ファイル内の各文字をループ処理してイメージファイルに書き込みます。

（I = 1; {i} <{lines} + 1; i = {i}）は、次のように定義される値の集合です。 +1）{Typeline "{_TOCR_LINE {i}}"}
エディタの[保存]ボタンをクリックし、[実行]をクリックしてコードをJavaコンパイラで実行します。