Python で PDF からテキストを抽出する

PDF ファイルの処理中に、ページからコンテンツをプレーン テキストとして抽出する必要があることがよくあります。このプレーン テキストは、テキスト分析、テキスト処理など、さまざまな目的に使用できます。この記事では、Python で PDF からテキストを抽出する方法を学習します。この記事では、コード サンプルを使用して、PDF 全体または単一ページでテキスト抽出を実行する方法を示します。

PDF からテキストを抽出する Python ライブラリ

PDF ファイルからテキストを抽出するには、Aspose.PDF for Python を使用します。これは、PDF ファイルの作成と処理を可能にする強力な PDF 操作ライブラリです。さらに、PDF ファイルを他の形式に変換することもできます。

次の pip コマンドを使用して、Aspose.PDF for Python をインストールできます。

pip install aspose-pdf

Python で PDF からテキストを抽出する

以下は、Python で PDF からテキストを抽出する手順です。

  • Document クラスを使用して PDF ファイルを読み込みます。
  • TextDevice クラスのインスタンスを作成します。
  • ページ数回のループを開始します。
  • 各反復で、TextDevice.process() メソッドを使用してページからテキストを抽出し、抽出したテキストを .txt ファイルに保存します。

次のコード サンプルは、Python で PDF からテキストを抽出する方法を示しています。

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# PDF ドキュメントを開く
document = ap.Document("input.pdf")

# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # ページを TXT にエクスポート
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

PDF の特定のページからテキストを抽出する

Document.pages 配列のページ番号を使用して、PDF の特定のページからテキストを抽出することもできます。次のコード サンプルは、PDF の特定のページからテキストを抽出する方法を示しています。

import aspose.pdf as ap

# PDF ドキュメントを開く
document = ap.Document("input.pdf")

# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()

# 最初のページからテキストを抽出する
textDevice.process(document.pages[1], "extracted_text.txt")

PDFオンラインからテキストを抽出

オンライン PDF テキスト抽出ツール を使用して、PDF ファイルからテキストを抽出することもできます。サブスクリプションやサインアップなしで使用できる無料のツールです。

無料の PDF テキスト抽出ライブラリ

無料の一時ライセンス を取得して、制限なく PDF ファイルからテキストを抽出します。

Python PDF ライブラリを調べる

ドキュメント を使用して、Python PDF ライブラリについて詳しく調べることができます。さらに、フォーラム に質問を投稿することもできます。

結論

この記事では、Python で PDF からテキストを抽出する方法を学びました。手順とコード サンプルは、PDF 全体または特定のページからテキストを抽出する方法を示しています。ライブラリを簡単にインストールして、Python アプリケーション内からテキスト抽出を実行できます。

関連項目