Python で PDF を OCR し、PDF からテキストを抽出する

光学式文字認識 (OCR) テクノロジーは、PDF ドキュメントを含むさまざまなソースからの印刷、スキャン、または手書きのテキストをデジタル化する際に極めて重要な役割を果たします。このブログ投稿では、Python で PDF ドキュメントを OCR し、PDF からテキストを抽出する方法を学びます。

この記事では次のトピックについて説明します。

  1. PDF から TXT への Python OCR API
  2. PDF の OCR と PDF からのテキストの抽出
  3. スキャンしたPDFをテキストに保存
  4. 無料の学習リソース

PDF から TXT へ - Python OCR API

Aspose.OCR for Python を使用して PDF ドキュメントに対して OCR を実行し、PDF からテキストを抽出します。 Aspose.OCR for Python は、スキャンされた画像、スマートフォンの写真、スクリーンショット、および画像の領域からテキストを認識できる強力な光学式文字認識 (OCR) API です。 API は、認識されたテキストの結果を、PDF、XML、JSON、プレーン テキストなどの最も一般的なドキュメントおよびデータ交換形式で返します。

Aspose.OCR for Python は、画像をテキストに変換するだけでなく、スキャンに基づいて検索可能な PDF を作成することもできます。この API は、認識されたテキストのスペルミスを自動修正することもできるため、さまざまなアプリケーションに最適です。

パッケージをダウンロードするか、コンソールで次の pip コマンドを使用して PyPI から API をインストールしてください。

pip install aspose-ocr-python-net

Python OCR PDF - Python で PDF からテキストを抽出

以下の手順に従って、PDF ドキュメントに対して OCR を実行し、認識されたテキストを抽出できます。

  1. AsposeOcr クラスのインスタンスを作成します。
  2. DocumentRecognitionSettings クラスのオブジェクトを初期化します。
  3. PDF ファイルを認識バッチに追加します。
  4. その後、recognition() メソッドを呼び出します。
  5. 最後に、RecognitionResult クラスを使用して、識別されたテキストを表示します。

次のサンプル コードは、Python で PDF ドキュメントを OCR し、PDF からテキストを抽出する方法を示しています。

# このコード例は、Python でスキャンされた PDF ドキュメントからテキストを認識して抽出する方法を示します。
import aspose.ocr as ocr

# OCRエンジンの初期化
api = ocr.AsposeOcr()

# 認識設定の初期化
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# ファイルを認識バッチに追加します
files = ocr.OcrInput(ocr.InputType.PDF)

# スキャンした PDF にアクセスし、ページ番号と総ページ数を設定します
files.add("C:\\Files\\sample.pdf", 0, 1)

# テキストを認識する
result = api.recognize(files , settings)

# 認識結果を印刷する
print(result[0].recognition_text)

Python OCR PDF - スキャンした PDF を Python でテキストに保存

以下の手順に従って、PDF ドキュメントに対して OCR を実行し、認識されたテキストを保存できます。

  1. AsposeOcr クラスのインスタンスを作成します。
  2. DocumentRecognitionSettings クラスのオブジェクトを初期化します。
  3. PDF ファイルを認識バッチに追加します。
  4. その後、recognition() メソッドを呼び出します。
  5. 最後に、savemultipagedocument() メソッドを使用してテキストを保存します。これは、出力ファイルのパス、SaveFormat および RecognitionResult オブジェクトを引数として受け取ります。

次のサンプル コードは、PDF ドキュメントを OCR し、認識されたテキストを Python で保存する方法を示しています。

# このコード例は、Python を使用してテキストを認識および抽出して保存する方法を示します。
import aspose.ocr as ocr

# OCRエンジンの初期化
api = ocr.AsposeOcr()

# 認識設定の初期化
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# ファイルを認識バッチに追加します
files = ocr.OcrInput(ocr.InputType.PDF)

# スキャンした PDF にアクセスし、ページ番号と総ページ数を設定します
files.add("C:\\Files\\sample.pdf", 0, 1)

# テキストを認識する
result = api.recognize(files , settings)

# 認識結果を印刷する
print(result[0].recognition_text)

# 抽出したテキストを保存する
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

無料の評価ライセンスを取得する

無料の一時ライセンスを取得して、評価制限なしでライブラリを試すことができます。

Python OCR PDF - 無料リソース

Python OCR API について学習するには、次のリソースをさらに参照してください。

結論

この記事では、Python で PDF ドキュメントに対して OCR を実行し、PDF からテキストを抽出する方法を学びました。 OCR を使用して PDF からテキストを抽出する機能は、アーカイブや法的文書からデータ分析やコンテンツのデジタル化に至るまで、多くの業界において変革をもたらします。 Aspose.OCR for Python を活用することで、開発者や愛好家は OCR 機能を Python プロジェクトにシームレスに統合できます。不明な点がある場合は、無料サポート フォーラムまでお気軽にお問い合わせください。

関連項目