Python で PDF からテーブルを抽出 |表形式データを PDF で読み取る

この記事では、Python を使用して PDF ファイルからテーブルを抽出する方法を学習します。 PDF はデータを共有するための一般的な形式ですが、PDF からテーブルを抽出するのは困難な作業になる場合があります。このタスクに役立つ利用可能な Python ライブラリがいくつかあります。それでも、データの正確な抽出が欠けている可能性があります。

それでは、数行のコードで PDF から表形式のデータを高精度で抽出する方法を見てみましょう。このチュートリアルを終了すると、Python を使用して PDF ファイルから表を抽出し、必要に応じて操作できるようになります。

PDF テーブルを抽出する Python ライブラリ
Python で PDF テーブルからデータを抽出する
PDF テーブルを抽出するオンラインツール

PDF からテーブルを抽出する Python ライブラリ

PDF ファイルのテーブルからデータを抽出するには、Aspose.PDF for Python を使用します。これは、PDF の処理と操作のための多数の機能を備えた強力な Python ライブラリです。次の pip コマンドを使用して、Aspose.PDF for Python をインストールできます。

pip install aspose-pdf

Python で PDF からテーブルを抽出する

以下は、Python を使用して PDF のテーブルからデータを抽出する手順です。

Document クラスを使用して PDF ファイルを読み込みます。
テーブルが配置されている PDF 内のページの参照を取得します。
TableAbsorber オブジェクトを初期化し、TableAbsorber.visit(Page) メソッドを使用して選択したページにアクセスします。
ループで、TableAbsorber.tablelist コレクション内のテーブルのリストを反復処理します。
テーブルごとに、AbsorbedTable.rowlist の行のコレクションを反復処理します。
吸収された行ごとに、AbsorbedRow.celllist のセルのコレクションを反復処理します。
最後に、吸収された各セルの textfragments コレクションをループして、テキストを出力します。

次のコードサンプルは、Python で PDF テーブルからテキストを抽出する方法を示しています。

import aspose.pdf as pdf

# PDFファイルを読み込む
pdfDocument = pdf.Document("input.pdf")

# TableAbsorber オブジェクトの初期化
tableAbsorber =  pdf.text.TableAbsorber()

# 最初のページのすべてのテーブルを解析します
tableAbsorber.visit(pdfDocument.pages[1])

# 最初のテーブルの参照を取得する
absorbedTable = tableAbsorber.table_list[0]

# テーブル内のすべての行を反復処理します
for pdfTableRow in absorbedTable.row_list:
    
    # 行のすべての列を反復処理します
   for pdfTableCell in pdfTableRow.cell_list:
        
        # テキストの断片を取得する
        textFragmentCollection = pdfTableCell.text_fragments
        
        # テキストの断片を繰り返し処理する
       for textFragment in textFragmentCollection:
            
            # テキストを印刷する
            print(textFragment.text)

PDF テーブルを抽出するオンラインツール

Aspose.PDF for Python に基づく無料のオンラインツール PDF テーブルエクストラクタを試して、PDF ファイルからテーブルを抽出することもできます。

Python PDF ライブラリを無料で使用する

無料の一時ライセンスを取得して、PDF ファイルのテーブルから制限なくデータを抽出できます。

Python PDF ライブラリを調べる

ドキュメントを使用して、Python PDF ライブラリについて詳しく調べることができます。また、フォーラムに質問を投稿することもできます。

結論

この記事では、Python を使用して PDF のテーブルからデータを抽出する方法を学習しました。少し変更を加えた同じコードを使用して、PDF 内のすべてのページから表を抽出できます。同様に、ページ上のすべてのテーブルまたは特定のテーブルからデータを抽出できます。アプリケーションに Aspose.PDF for Python をインストールするだけで、PDF ファイルから表形式のデータをすばやく簡単に抽出できます。

PDF からテーブルを抽出する Python ライブラリ#

Python で PDF からテーブルを抽出する#

PDF テーブルを抽出するオンライン ツール#

Python PDF ライブラリを無料で使用する#

Python PDF ライブラリを調べる#

結論#

関連項目#

PDF からテーブルを抽出する Python ライブラリ

Python で PDF からテーブルを抽出する

PDF テーブルを抽出するオンラインツール

Python PDF ライブラリを無料で使用する

Python PDF ライブラリを調べる

結論

関連項目