スキャンされた PDF ドキュメントは、検索または編集可能なテキストがないため、作業が困難になることがよくあります。しかし、光学式文字認識 (OCR) テクノロジーを利用すると、スキャンした PDF からテキストを抽出し、検索または編集可能な形式に変換することが現実になります。このブログ投稿では、Python で OCR を使用して PDF テキスト認識を実行する方法を学習します。また、スキャンした PDF ファイルからテキストを抽出し、検索可能または編集可能な PDF に変換し、Aspose.OCR for Python via .NET ライブラリを使用して Python の OCR 機能の可能性を解き放つ方法についても説明します。
- OCR を使用してスキャンした PDF からテキストを認識 – Python API のインストール
- Python の OCR を使用して PDF からテキストを認識する
- Python で OCR を使用してスキャンした PDF を検索可能または編集可能な PDF に変換する
OCR を使用してスキャンした PDF からテキストを認識 – Python API のインストール
光学式文字認識 (OCR) は、画像またはスキャンした文書を機械可読テキストに変換できるテクノロジーです。 OCR アルゴリズムは、画像内の文字の形状とパターンを分析することでテキストを識別および認識し、そこに含まれる情報を抽出して処理することが可能になります。始める前に、New Releases ページからダウンロードして .NET 経由で Aspose.OCR for Python をインストールするか、以下のインストール コマンドを実行して PyPi から設定する必要があります。
pip install aspose-ocr-python-net
Python の OCR を使用して PDF からテキストを認識する
Python の OCR を使用して PDF からテキストを認識または抽出できます。以下の手順は、Python の OCR を使用して PDF からテキストを認識する簡単なプロセスの概要を示しているため、スキャンされた PDF ドキュメントからテキストを効率的に抽出します。
- AsposeOcrクラスのオブジェクトをインスタンス化します。
- スキャンした PDF ファイルを読み込みます。
- OCR でテキストを認識し、出力をコンソールに出力します。
以下のサンプル コードは、Python で OCR を使用して PDF からテキストを認識する方法を示しています。
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
Python で OCR を使用してスキャンした PDF を検索可能または編集可能な PDF に変換する
スキャンされた PDF ファイルには、テキストを検索できない画像が含まれているため、検索可能な PDF ドキュメントに変換してドキュメントを機械可読にし、それに応じてさらに処理する必要があります。 Python で検索または編集可能な PDF ドキュメントに変換するには、以下の手順に従ってください。
- AsposeOcrクラスのオブジェクトを作成します。
- [RecognitionSettings][5] クラス インスタンスを初期化し、必要なプロパティを設定します。
- PDFファイルを読み込み、OCRで認識するページ範囲を設定します。
- 出力された検索可能な PDF ファイルを保存します。
次のサンプル コードは、Python で OCR を使用して、スキャンした PDF を検索可能な PDF ドキュメントに変換する方法を示しています。
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
ここで注目すべき点は、PDF ドキュメント内の任意の範囲のページを OCR できることです。たとえば、ページ インデックスが 0 から始まり、最後のパラメータが API で処理されるページ数である場合にのみ、特定のページのテキストを認識します。さらに、ノイズの除去、コントラストの設定、入力ページの傾きのチェックなど、ソース ファイルの前処理にさまざまな認識設定を設定して、OCR によるテキストの認識を強化し、正確に行うことができます。
無料の評価ライセンスを取得する
API を評価するために、評価制限なしで 無料の一時ライセンス をリクエストできます。
まとめ
OCR テクノロジーと Python の機能により、スキャンされた PDF からテキストを抽出し、検索または編集可能な形式に変換することが容易になりました。ここでは、Python の OCR を使用した PDF テキスト認識のプロセスを検討しました。インストールプロセスとスキャンした PDF からのテキストの抽出、OCR の実装、スキャンした PDF の検索または編集可能な形式への変換について説明しました。 OCR 機能を活用し、高度な技術を採用することで、スキャンした PDF の可能性を最大限に引き出し、プロジェクト内で PDF をよりアクセスしやすく、汎用性の高いものにすることができます。不明な点や質問がある場合は、無料サポート フォーラム を通じてお問い合わせください。