Python で PDF を Excel に変換する

PDF から Excel への変換は、さまざまな場合に必要になる可能性があります。たとえば、PDF の表形式データをスプレッドシートにエクスポートしたり、Excel でタスクを自動化したり、Excel の他のデータ操作機能を使用したりします。 PDF および Excel ファイルをプログラムで操作しているときに、Python で PDF から Excel への変換を自動化する必要がある場合があります。それを達成するために、この記事では、Python で PDF ファイルを Excel に変換する最も簡単なソリューションを提供します。

さらに、さまざまなオプションを使用して PDF から Excel への変換をカスタマイズする方法を学習します。また、いつでもどこでも使用できる無料のオンライン PDF から Excel へのコンバーターを入手できます。

Python PDF から Excel へのコンバーター

PDF から Excel XLS/XLSX への変換には、Aspose.PDF for Python を使用します。このライブラリは、Python アプリケーション内から PDF ファイルを作成、処理、および変換するように設計されています。

次の pip コマンドを使用して、PyPI からライブラリをインストールします。

pip install aspose-pdf

Python で PDF を Excel XLS に変換する

Aspose.PDF for Python では、PDF から Excel XLS への変換が非常に簡単になりました。 PDF ファイルを読み込んで、XLS 形式で目的の場所に保存するだけです。以下の手順に従って、Python アプリケーションで PDF ファイルを XLS に変換できます。

  • Document クラスのインスタンスを作成し、入力 PDF ファイルのパスで初期化します。
  • ExcelSaveOptions クラスのオブジェクトを作成し、出力形式を XMLSPREADSHEET2003 に設定します。
  • 出力 XLS ファイルの名前と ExcelSaveOptions を引数として Document.save() メソッドを呼び出します。

次のコード サンプルは、Python で PDF を XLS に変換する方法を示しています。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"

# PDFファイルを開く
document = ap.Document(input_pdf)

# 保存オプションの作成と設定
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

# ファイルを MS Excel 形式で保存します
document.save(output_pdf, save_option)

入力PDFファイル

Python で PDF を XLS に変換する方法

変換された Excel シート

Python での PDF から Excel への変換

PythonでPDFをXLSXとして保存

同様の方法で PDF を XLSX に変換することもできます。この場合、出力形式を指定する必要はありません。変換された Excel ファイルを .xlsx 拡張子で保存するだけです。以下は、Python で PDF を XLSX に変換する手順です。

  • Document クラスを使用して PDF ファイルを読み込みます。
  • ExcelSaveOptions クラスのオブジェクトを作成します。
  • Document.save() メソッドを呼び出し、出力ファイルの名前と DocSaveOptions オブジェクトを引数として渡します。

次のコード サンプルは、Python で PDF を XLSX に変換する方法を示しています。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"

# PDF ドキュメントを開く
document = ap.Document(input_pdf)

# 保存オプションを作成する
save_option = ap.ExcelSaveOptions()

# ファイルをXLSXに保存します
document.save(output_pdf, save_option)

PDF から Excel への変換をカスタマイズする

さまざまなオプションを使用して、PDF から Excel への変換をカスタマイズすることもできます。次のセクションでは、使用可能なオプションのいくつかを使用する方法を示します。

最初の列が空白の PDF から Excel

このオプションは、変換された Excel シートに空白の最初の列を追加するために使用されます。このオプションを設定するには、ExcelSaveOptions クラスを使用します。次のコード サンプルは、このオプションの使用方法を示しています。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"

# PDF ドキュメントを開く
document = ap.Document(input_pdf)

# 保存オプションを作成する
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True

# ファイルを MS Excel 形式で保存します
document.save(output_pdf, save_option)

ワークシートの数を最小限に抑える

デフォルトでは、PDF の各ページは Excel ファイルのシートに変換されます。ただし、この動作をオーバーライドして、Excel ファイルのシート数を最小限に抑えることができます。このためには、ExcelSaveOptions.minimizethenumberofworksheets プロパティを True に設定する必要があります。次のコード サンプルは、PDF から Excel への変換でシート数を最小限に抑える方法を示しています。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "multipage.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"

# PDF ドキュメントを開く
document = ap.Document(input_pdf)

# 保存オプションを作成する
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True

# ファイルを MS Excel 形式で保存します
document.save(output_pdf, save_option)

オンライン PDF から Excel へのコンバーター

オンラインで PDF ファイルを Excel 形式に変換する場合は、Aspose.PDF ライブラリを使用して開発された高品質で無料の PDF から Excel へのコンバーターを使用してください。

無料の PDF から XLS へのコンバーター

無料ライセンスを取得 すると、評価制限なしで PDF ファイルを Excel 形式に変換できます。

PDF から Excel へのコンバーターを調べる

ドキュメント を使用して、Python PDF ライブラリについて詳しく知ることができます。また、フォーラム からお気軽に質問をお知らせください。

結論

この記事では、Python で PDF ファイルを Excel に変換する方法を学習しました。 PDF から XLS および XLSX への変換については、明示的に説明しました。さらに、さまざまなオプションを使用して PDF から Excel への変換をカスタマイズする方法を見てきました。また、最後に無料のオンライン PDF から Excel へのコンバーターが用意されており、これを使用して必要な数の PDF ファイルを変換できます。

関連項目