JavaでTesseract OCRを使用する方法

著者: Eugene Taylor
作成日: 8 Aug. 2021
更新日: 11 5月 2024
Anonim
JavaでTesseractOCRを使用する方法は? |画像からテキストを抽出する
ビデオ: JavaでTesseractOCRを使用する方法は? |画像からテキストを抽出する

コンテンツ

Tesseract光学式文字認識ライブラリは、開発者に文書やテキストをスキャンして画像にする方法を提供します。彼らはあなたがもはや紙に必要としない文書の画像を保存するために使用されます。 Javaでそれらを文字ごとに制御ループを作成してそれぞれをファイルに書き込むことで使用できます。 Tesseractライブラリを使用するには、OCR関数にJavaの「ネームスペース」を含める必要があります。


説明書

Tesseractライブラリにより、ユーザーは自分の文書をスキャンできます (John Foxx / Stockbyte / Getty Images)
  1. OCR文書を作成するために使用したいJavaファイルを右クリックします。 「アプリケーションから開く」をクリックして、選択したJavaエディタを選択します。

  2. ファイルの先頭にOCRライブラリの名前空間を追加します。次のコードをコピーしてソースファイルに貼り付けます。

    com.touch.robot.imagecomparison.tesseractocr

  3. ファイルの文字をスキャンするためのコードを作成します。たとえば、次のコードは、ファイル内の各文字をループ処理してイメージファイルに書き込みます。

    (I = 1; {i} <{lines} + 1; i = {i})は、次のように定義される値の集合です。 +1){Typeline "{_TOCR_LINE {i}}"}

  4. エディタの[保存]ボタンをクリックし、[実行]をクリックしてコードをJavaコンパイラで実行します。