PDFからWordへのOCR Python

スキャンした PDF を Word 文書に変換すると、文書内のテキストを編集して変更や更新を容易にするなど、いくつかの利点があります。また、テキスト検索機能も有効になるため、大規模なドキュメントや調査を行う場合に非常に役立ちます。さらに、Python で OCR を実行するときに、スペルチェックを実行してタイプミスや単語のスペルミスを修正することもできます。したがって、この記事では、Aspose.OCR for Python via .NET ライブラリを使用して、Python で OCR を使用してスキャンした PDF を Word 文書に変換する方法について説明します。

OCR を使用して PDF から Word へ – Python API のインストール

テキスト認識に入る前に、Python で OCR を実行するために必要な環境がセットアップされていることを確認しましょう。 Python がシステムにインストールされていることを確認してください (できればバージョン 3.x 以降で、Visual Studio Code や IDLE などの信頼できるコード エディターまたは統合開発環境 (IDE) もインストールしてください)。その後、Aspose.OCR を構成する必要があります。 New Releases セクションまたは PyPi から次のインストール コマンドを使用して .NET 経由で Python にアクセスします。

pip install aspose-ocr-python-net

Python の OCR を使用してスキャンした PDF を Word に変換する

以下の手順に従って、OCR を使用してスキャンした PDF を Word に変換できます。

  1. AsposeOcr クラスを使用して API を初期化します。
  2. 認識に関してさまざまな設定を行います。
  3. OCR でテキストを認識し、出力された DOCX Word ファイルを保存します。

次のコード スニペットは、Python で OCR を使用してスキャンした PDF を Word に変換する方法を示しています。

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

Python での OCR とスペルチェックによる PDF から Word への変換

OCR エンジンは、特に複雑なレイアウト、手書き、または低品質のスキャンを処理する場合に、不正確さを生じることがあります。このような場合、スペル修正は、変換されたテキストの精度を向上させる上で重要な役割を果たします。このセクションでは特に、OCR を使用した PDF から Word への変換と Python のスペルチェック機能について説明します。これらの要件を満たすには、次の手順に従う必要があります。

  1. AsposeOcr クラスのインスタンスを初期化します。
  2. RecognitionSettings クラスを使用してさまざまなプロパティを設定します。
  3. OCR で PDF を認識し、抽出された文字列をスペルチェックします。
  4. 出力された Word 文書を DOCX 形式でエクスポートします。

以下のサンプル コードは、Python の OCR を使用して PDF を Word ドキュメントに変換する方法を説明しています。

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

無料の評価ライセンスを取得する

評価制限やウォーターマークを回避するために、無料の一時ライセンスを取得できます。

まとめ

このブログ投稿では、Python の OCR を使用して、スキャンした PDF を Word ドキュメントに変換する方法を検討しました。 OCR の重要性とその利点について説明し、環境をセットアップし、いくつかの設定を指定しながらさまざまなアプローチで PDF 文書からテキストを抽出し、それを Word 文書に保存するためのステップバイステップのガイドを提供しました。このガイドでは、Python と OCR を使用して、スキャンした PDF から編集可能な Word ドキュメントへの変換を自動化し、データの抽出と操作の可能性を広げます。懸念事項について話し合う必要がある場合は、お気軽に 無料サポート フォーラム までご連絡ください。

関連項目