PythonはPDF内のテキストを検索して置換します

PDF ファイル内のテキストを検索して置換する簡単かつ正確な方法を探している場合は、ここが適切な場所です。この記事では、Python を使用して PDF 内の特定のテキストを置換する方法を学習します。数行のコードを記述することで、PDF 全体を解析して、目的の単語/フレーズを検索および置換できます。

PDF 内のテキストを検索および置換する Python ライブラリ

PDF ファイル内のテキストを検索して置換するには、Aspose.PDF for Python を使用します。これは、PDF ファイルを簡単に作成および処理するための堅牢な Python ライブラリです。このライブラリを使用すると、PDF ファイル内のテキストを高精度かつ高速に検索して置換することもできます。

ライブラリをインストールするには、次の pip コマンドを使用できます。

> pip install aspose-pdf

Python を使用して PDF 内のテキストを検索および置換する

次の手順では、Aspose.PDF を利用して Python を使用して PDF ドキュメント内のテキストを検索および置換する方法を説明します。

  1. Document クラスを使用して、パスから PDF を読み込みます。
  2. TextFragmentAbsorber クラスのインスタンスを作成し、そのコンストラクターに検索フレーズを提供します。
  3. doc.pages.accept(textabsorber) を使用して、PDF のすべてのページに対してテキスト アブソーバーを受け入れます。
  4. 抽出されたテキストの断片をオブジェクトに取得します。
  5. 見つかったテキストのフラグメントをループし、各フラグメント内のテキストを置き換えます。
  6. 最後に、Document.save() メソッドを使用して、更新された PDF ドキュメントを保存します。

次のコード サンプルは、Python を使用して PDF 内のテキストを検索および置換する方法を示しています。

# PDF ドキュメントをロードする
document = ap.Document("input.pdf")

# TextFragmentAbsorber オブジェクトをインスタンス化する
txtAbsorber = ap.text.TextFragmentAbsorber("text-to-replace")

# 検索テキスト
document.pages.accept(txtAbsorber)

# 見つかったテキストフラグメントへの参照を取得します
textFragmentCollection = txtAbsorber.text_fragments

# 検索されたすべてのテキスト断片を解析し、テキストを置換します
for txtFragment in textFragmentCollection:
    txtFragment.text = "replaced-text"

# 更新された PDF を保存する
document.save("output.pdf")

PDF内のテキストを置換するオンラインツール

また、Aspose.PDF for Python に基づいた PDF ファイル内のテキストを置換するオンライン ツール も開発しました。インターネット接続さえあれば、いつでもどこからでもこのツールを使用できます。

PDF内のテキストを置換する無料のPythonライブラリ

無料の一時ライセンスを取得 して、制限なく PDF ファイル内のテキストを置き換えることができます。

さらに、ドキュメント を使用して、Python PDF ライブラリの他の機能を調べることができます。また、問題、提案、フィードバックについては、フォーラム にぜひお書きください。

結論

この記事では、Python を使用して PDF を解析し、特定のテキストを検索して置換する方法を学習しました。数行のコードで、PDF ファイルのバッチ内のテキストを検索および置換できます。さらに、PDF ファイル内のテキストを置換する無料のオンライン ツールも提供しています。このツールは、インターネットに接続されている任意のデバイスから使用できます。

関連項目