PDF から画像を抽出する Python

Python を使用して PDF から画像を抽出する簡単な方法を探している場合は、この記事が有益な解決策を提供します。いくつかの簡単な手順に従うことで、PDF ファイルを効率的に処理して画像を抽出する方法を学ぶことができます。それでは、Python で PDF ファイルから画像を抽出する方法を見てみましょう。

PDF内の画像を抽出するためのPythonライブラリ

PDF から画像を抽出するには、Aspose.PDF for Python を使用します。これは、PDF ファイルを簡単に作成および処理できる堅牢な PDF ライブラリです。さらに、数行のコードで PDF を解析して画像を抽出することができます。次の pip コマンドを使用して、アプリケーションに ライブラリをインストール します。

> pip install aspose-pdf 

Python で PDF から画像を抽出する方法

PDF ファイルから画像を抽出する手順は次のとおりです。

  • PDF ファイルを読み込みます。
  • PDF 内のページをループします。
  • 画像を 1 つずつ抽出します。
  • 抽出した画像を保存します。

これらの手順を Python コードに変換し、PDF から画像を抽出してみましょう。

Python での PDF 画像抽出

以下は、Python で PDF から画像を抽出する手順です。

  • まず、Document クラスを使用して PDF を読み込みます。
  • document.pages コレクションを使用して PDF のページをループします。
  • ページごとに、resources.images コレクション内のすべての XImage にアクセスします。
  • XImage.save() メソッドを使用して、各画像を目的の場所に保存します。

次のコード サンプルは、Python で PDF から画像を抽出する方法を示しています。

import aspose.pdf as ap
import aspose.pydrawing as drawing

# PDFをロードする
document = ap.Document("document.pdf")

image_counter = 1
image_name = "image_{counter}.jpg"

# すべてのページをループする
for page in document.pages:

    # ページ上の画像をループする
   for image in page.resources.images: 
        
        # 画像を保存するメモリストリームオブジェクトを作成する
        with open(image_name.format(counter=image_counter), "wb") as stream:
           
            # 画像を保存する
            image.save(stream, drawing.imaging.ImageFormat.jpeg)
            image_counter = image_counter + 1

オンライン PDF 画像抽出ツール

また、Aspose.PDF for Python に基づく オンライン PDF パーサー も提供しています。この無料ツールを使用すると、PDF ファイルを解析し、画像を抽出できます。

Python PDF ライブラリ

無料の一時ライセンスを取得して、制限なく PDF ファイルから画像を抽出できます。

さらに、ドキュメント を使用して Python PDF ライブラリについて詳しく調べることができます。また、フォーラムに質問を投稿することもできます。

結論

この記事では、Python で PDF から画像を抽出する方法を学習しました。ステップバイステップのガイドとコードサンプルでは、PDF を解析して各ページから画像を抽出する方法を示しました。さらに、PDF テキストと画像を抽出するための無料オンライン アプリも提供しています。このアプリは、インターネットに接続されている任意のデバイスから使用できます。

関連項目