PythonでPDFをWordに変換する

PDFは、ドキュメントの共有と印刷に一般的に使用されるファイル形式です。ただし、場合によっては、PDFファイルをWord DOCXまたはDOC形式に変換して、テキストを解析したり、ドキュメントを編集可能にしたりします。このようなシナリオでは、この記事では、Pythonを使用してPDFファイルをWord文書に変換する方法について説明します。さらに、PDFファイルのロードを動的に制御するためにさまざまなロードオプションを指定する方法を学習します。

PythonPDFからWordへのコンバータライブラリ

PDFファイルをWord形式に変換するために、Aspose.Words for Pythonを使用します。これは、Word文書を作成、操作、および変換するための機能豊富なPythonライブラリです。さらに、WordおよびPDFドキュメントを忠実に前後に変換できます。 Aspose.Words for Pythonは、PyPIでホストされており、次のpipコマンドを使用してインストールできます。

pip install aspose-words

PythonでPDFファイルをWordDOCXに変換する

Aspose.Words for Pythonを使用すると、数ステップでPDFファイルをWordDOCX形式に変換できます。 PDFファイルをロードしてWord文書として保存するだけです。以下は、PythonでPDFファイルをDOCX形式に変換する手順です。

  • Documentクラスを使用してPDFファイルをロードします。
  • Document.save()メソッドを使用してPDFファイルをWord文書として保存します。

次のコードサンプルは、PDFファイルをWordDOCX形式に変換する方法を示しています。

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

PDFからWordへの変換でロードオプションを指定する

Aspose.Words for Pythonでは、要件に応じてPDFドキュメントの読み込みをカスタマイズすることもできます。たとえば、PDFのページの範囲のみをロードしたり、画像をスキップしたり、暗号化されたファイルのパスワードを指定したりできます。ロードオプションを設定するには、PdfLoadOptionsクラスを使用します。以下は、PDFからWordへの変換でロードオプションを指定する手順です。

  • PdfLoadOptionsクラスのインスタンスを作成します。
  • PdfLoadOptions.loadformatプロパティを使用してロード形式を指定します。
  • skippdfimages、pageindex、pagecountなどのオプションを設定します。
  • Documentクラスを使用して、パスとPdfLoadOptionsをパラメーターとして渡してPDFファイルをロードします。
  • Document.save()メソッドを使用してPDFファイルをWord文書として保存します。

次のコードサンプルは、Pythonを使用してPDFからDOCXへの変換でロードオプションを指定する方法を示しています。

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

無料のAPIライセンスを取得する

評価の制限なしにAspose.Words for Pythonを使用するために、一時ライセンスを取得できます。

結論

この記事では、PythonでPDFファイルをWordDOCXまたはDOC形式に変換する方法を学びました。さらに、PDFファイルにさまざまなロードオプションを動的に指定する方法を見てきました。 Aspose.Words for Pythonは、ドキュメントを使用して探索できるその他のさまざまな機能を提供します。また、フォーラムから質問することもできます。

関連項目