PDF ファイルの処理中に、ページからコンテンツをプレーン テキストとして抽出する必要があることがよくあります。このプレーン テキストは、テキスト分析、テキスト処理など、さまざまな目的に使用できます。この記事では、Python で PDF からテキストを抽出する方法を学習します。この記事では、コード サンプルを使用して、PDF 全体または単一ページでテキスト抽出を実行する方法を示します。
PDF からテキストを抽出する Python ライブラリ
PDF ファイルからテキストを抽出するには、Aspose.PDF for Python を使用します。これは、PDF ファイルの作成と処理を可能にする強力な PDF 操作ライブラリです。さらに、PDF ファイルを他の形式に変換することもできます。
次の pip コマンドを使用して、Aspose.PDF for Python をインストールできます。
pip install aspose-pdf
Python で PDF からテキストを抽出する
以下は、Python で PDF からテキストを抽出する手順です。
- Document クラスを使用して PDF ファイルを読み込みます。
- TextDevice クラスのインスタンスを作成します。
- ページ数回のループを開始します。
- 各反復で、TextDevice.process() メソッドを使用してページからテキストを抽出し、抽出したテキストを .txt ファイルに保存します。
次のコード サンプルは、Python で PDF からテキストを抽出する方法を示しています。
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# PDF ドキュメントを開く
document = ap.Document("input.pdf")
# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# ページを TXT にエクスポート
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
PDF の特定のページからテキストを抽出する
Document.pages 配列のページ番号を使用して、PDF の特定のページからテキストを抽出することもできます。次のコード サンプルは、PDF の特定のページからテキストを抽出する方法を示しています。
import aspose.pdf as ap
# PDF ドキュメントを開く
document = ap.Document("input.pdf")
# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()
# 最初のページからテキストを抽出する
textDevice.process(document.pages[1], "extracted_text.txt")
PDFオンラインからテキストを抽出
オンライン PDF テキスト抽出ツール を使用して、PDF ファイルからテキストを抽出することもできます。サブスクリプションやサインアップなしで使用できる無料のツールです。
無料の PDF テキスト抽出ライブラリ
無料の一時ライセンス を取得して、制限なく PDF ファイルからテキストを抽出します。
Python PDF ライブラリを調べる
ドキュメント を使用して、Python PDF ライブラリについて詳しく調べることができます。さらに、フォーラム に質問を投稿することもできます。
結論
この記事では、Python で PDF からテキストを抽出する方法を学びました。手順とコード サンプルは、PDF 全体または特定のページからテキストを抽出する方法を示しています。ライブラリを簡単にインストールして、Python アプリケーション内からテキスト抽出を実行できます。