Python で PDF からテキストを抽出 |オンライン PDF テキスト抽出

PDF ファイルの処理中に、ページからコンテンツをプレーンテキストとして抽出する必要があることがよくあります。このプレーンテキストは、テキスト分析、テキスト処理など、さまざまな目的に使用できます。この記事では、Python で PDF からテキストを抽出する方法を学習します。この記事では、コードサンプルを使用して、PDF 全体または単一ページでテキスト抽出を実行する方法を示します。

PDF からテキストを抽出する Python ライブラリ
Python で PDF からテキストを抽出する
PDF のページからテキストを抽出する
オンライン PDF テキストエクストラクタ

PDF からテキストを抽出する Python ライブラリ

PDF ファイルからテキストを抽出するには、Aspose.PDF for Python を使用します。これは、PDF ファイルの作成と処理を可能にする強力な PDF 操作ライブラリです。さらに、PDF ファイルを他の形式に変換することもできます。

次の pip コマンドを使用して、Aspose.PDF for Python をインストールできます。

pip install aspose-pdf

Python で PDF からテキストを抽出する

以下は、Python で PDF からテキストを抽出する手順です。

Document クラスを使用して PDF ファイルを読み込みます。
TextDevice クラスのインスタンスを作成します。
ページ数回のループを開始します。
各反復で、TextDevice.process() メソッドを使用してページからテキストを抽出し、抽出したテキストを .txt ファイルに保存します。

次のコードサンプルは、Python で PDF からテキストを抽出する方法を示しています。

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# PDF ドキュメントを開く
document = ap.Document("input.pdf")

# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # ページを TXT にエクスポート
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

PDF の特定のページからテキストを抽出する

Document.pages 配列のページ番号を使用して、PDF の特定のページからテキストを抽出することもできます。次のコードサンプルは、PDF の特定のページからテキストを抽出する方法を示しています。

import aspose.pdf as ap

# PDF ドキュメントを開く
document = ap.Document("input.pdf")

# テキスト デバイスの作成
textDevice = ap.devices.TextDevice()

# 最初のページからテキストを抽出する
textDevice.process(document.pages[1], "extracted_text.txt")

PDFオンラインからテキストを抽出

オンライン PDF テキスト抽出ツールを使用して、PDF ファイルからテキストを抽出することもできます。サブスクリプションやサインアップなしで使用できる無料のツールです。

無料の PDF テキスト抽出ライブラリ

無料の一時ライセンスを取得して、制限なく PDF ファイルからテキストを抽出します。

Python PDF ライブラリを調べる

ドキュメントを使用して、Python PDF ライブラリについて詳しく調べることができます。さらに、フォーラムに質問を投稿することもできます。

結論

この記事では、Python で PDF からテキストを抽出する方法を学びました。手順とコードサンプルは、PDF 全体または特定のページからテキストを抽出する方法を示しています。ライブラリを簡単にインストールして、Python アプリケーション内からテキスト抽出を実行できます。

PDF からテキストを抽出する Python ライブラリ#

Python で PDF からテキストを抽出する#

PDF の特定のページからテキストを抽出する#

PDFオンラインからテキストを抽出#

無料の PDF テキスト抽出ライブラリ#

Python PDF ライブラリを調べる#

結論#

関連項目#