PythonでPDFをWordに変換する

PDFは、ドキュメントの共有と印刷に一般的に使用されるファイル形式です。ただし、場合によっては、PDFファイルをWord DOCX形式に変換して、テキストを解析したり、ドキュメントを編集可能にしたりします。このようなシナリオの場合、この記事では、PythonでPDFをDOCXに変換する方法について説明します。さらに、PDFファイルのロードを動的に制御するためにさまざまなロードオプションを指定する方法を学習します。

Python PDF to DOCX Converter-無料ダウンロード

PDFファイルをDOCX形式に変換するために、Aspose.Words forPythonを使用します。これは、Word文書を作成、操作、および変換するための機能豊富なPythonライブラリです。さらに、WordおよびPDFドキュメントを忠実に前後に変換できます。 Aspose.Words for Pythonは、PyPIでホストされており、次のpipコマンドを使用してインストールできます。

pip install aspose-words

PythonでPDFをDOCXに変換する

Aspose.Words for Pythonを使用すると、数ステップでPDFファイルをDOCXに変換できます。 PDFファイルをロードしてDOCXドキュメントとして保存するだけです。以下は、PythonでPDFをDOCXに変換する手順です。

  • Documentクラスを使用してPDFファイルをロードします。
  • Document.save()メソッドを使用してPDFファイルをDOCXドキュメントとして保存します。

次のコードサンプルは、PDFファイルをDOCX形式に変換する方法を示しています。

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Python PDFからDOCXへの変換-ロードオプションを指定します

Aspose.Words for Pythonでは、要件に応じてPDFドキュメントの読み込みをカスタマイズすることもできます。たとえば、PDFのページの範囲のみをロードしたり、画像をスキップしたり、暗号化されたファイルのパスワードを指定したりできます。ロードオプションを設定するには、PdfLoadOptionsクラスを使用します。以下は、PythonPDFからDOCXへの変換でロードオプションを指定する手順です。

  • PdfLoadOptionsクラスのインスタンスを作成します。
  • PdfLoadOptions.load_formatプロパティを使用してロード形式を指定します。
  • skip_pdf_images、page_index、page_countなどのオプションを設定します。
  • Documentクラスを使用して、パスとPdfLoadOptionsをパラメーターとして渡してPDFファイルをロードします。
  • Document.save()メソッドを使用してPDFファイルをDOCXドキュメントとして保存します。

次のコードサンプルは、PythonでPDFからDOCXへの変換でロードオプションを指定する方法を示しています。

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Python PDF to DOCX Converter-無料ライセンスを取得

評価の制限なしにAspose.Words for Pythonを使用するために、一時ライセンスを取得できます。

結論

この記事では、PythonでPDFファイルをDOCXに変換する方法を学びました。さらに、PDFファイルにさまざまなロードオプションを動的に指定する方法を見てきました。 Aspose.Words for Pythonは、ドキュメントを使用して探索できるその他のさまざまな機能を提供します。また、フォーラムから質問することもできます。

関連項目