在 Python 中將 PDF 轉換為 Word

PDF 是共享和打印文檔的常用文件格式。但是,在某些情況下,PDF 文件會轉換為 Word DOCX 格式以解析文本或使文檔可編輯。對於此類場景,本文介紹瞭如何在 Python 中將 PDF 轉換為 DOCX。此外,您還將學習如何指定不同的加載選項來動態控制 PDF 文件的加載。

Python PDF 到 DOCX 轉換器 - 免費下載

為了將 PDF 文件轉換為 DOCX 格式,我們將使用 Aspose.Words for Python。它是一個功能豐富的 Python 庫,用於創建、操作和轉換 Word 文檔。此外,它還提供高保真度的 Word 和 PDF 文檔的來迴轉換。 Aspose.Words for Python 託管在 PyPI 上,可以使用以下 pip 命令安裝。

pip install aspose-words

在 Python 中將 PDF 轉換為 DOCX

使用 Aspose.Words for Python,您可以在幾個步驟內將 PDF 文件轉換為 DOCX。只需加載 PDF 文件並將其另存為 DOCX 文檔。以下是在 Python 中將 PDF 轉換為 DOCX 的步驟。

  • 使用 Document 類加載 PDF 文件。
  • 使用 Document.save() 方法將 PDF 文件保存為 DOCX 文檔。

以下代碼示例顯示瞭如何將 PDF 文件轉換為 DOCX 格式。

import aspose.words as aw

# 加載PDF文件
doc = aw.Document("PDF.pdf")

# 將 PDF 轉換為 Word DOCX 格式
doc.save("pdf-to-word.docx")

Python PDF 到 DOCX 轉換 - 指定加載選項

Aspose.Words for Python 還允許您根據您的要求自定義 PDF 文檔的加載。例如,您可以僅加載 PDF 中的一定範圍的頁面、跳過圖像、為加密文件指定密碼等。要設置加載選項,請使用 PdfLoadOptions 類。以下是在 Python PDF 到 DOCX 轉換中指定加載選項的步驟。

  • 創建 PdfLoadOptions 類的實例。
  • 使用 PdfLoadOptions.loadformat 屬性指定加載格式。
  • 設置諸如 skippdfimages、pageindex、pagecount 等選項。
  • 使用 Document 類通過將其路徑和 PdfLoadOptions 作為參數傳遞來加載 PDF 文件。
  • 使用 Document.save() 方法將 PDF 文件保存為 DOCX 文檔。

以下代碼示例顯示如何在 Python 中指定 PDF 到 DOCX 轉換的加載選項。

import aspose.words as aw

# 創建 PDF 加載選項
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# 設置起始頁索引和頁數
loadOptions.page_index = 0
loadOptions.page_count = 1

# 跳過 PDF 中的圖像
loadOptions.skip_pdf_images = True

# 為加密的 PDF 文件設置密碼
#loadOptions.password = "12345" 

# 加載PDF文件
doc = aw.Document("PDF.pdf", loadOptions)

# 將 PDF 轉換為 Word
doc.save("pdf-to-word.docx")

Python PDF 到 DOCX 轉換器 - 獲得免費許可證

您可以獲得臨時許可,以便在沒有評估限制的情況下使用 Aspose.Words for Python。

結論

在本文中,您學習瞭如何在 Python 中將 PDF 文件轉換為 DOCX。此外,您還了解瞭如何為 PDF 文件動態指定不同的加載選項。 Aspose.Words for Python 提供了廣泛的其他功能,您可以使用 文檔 探索這些功能。此外,您可以通過我們的 論壇 提出您的疑問。

也可以看看