在 Python 中将 PDF 转换为 Word

PDF 是共享和打印文档的常用文件格式。但是,在某些情况下,PDF 文件会转换为 Word DOCX 格式以解析文本或使文档可编辑。对于此类场景,本文介绍了如何在 Python 中将 PDF 转换为 DOCX。此外,您将学习如何指定不同的加载选项来动态控制 PDF 文件的加载。

Python PDF 到 DOCX 转换器 - 免费下载

为了将 PDF 文件转换为 DOCX 格式,我们将使用 Aspose.Words for Python。它是一个功能丰富的 Python 库,用于创建、操作和转换 Word 文档。此外,它还提供高保真Word和PDF文档的来回转换。 Aspose.Words for Python 托管在 PyPI 上,可以使用以下 pip 命令安装。

pip install aspose-words

在 Python 中将 PDF 转换为 DOCX

使用 Aspose.Words for Python,您可以通过几个步骤将 PDF 文件转换为 DOCX。只需加载 PDF 文件并将其保存为 DOCX 文档。以下是在 Python 中将 PDF 转换为 DOCX 的步骤。

  • 使用 Document 类加载 PDF 文件。
  • 使用 Document.save() 方法将 PDF 文件保存为 DOCX 文档。

以下代码示例展示了如何将 PDF 文件转换为 DOCX 格式。

import aspose.words as aw

# 加载 PDF 文件
doc = aw.Document("PDF.pdf")

# 将 PDF 转换为 Word DOCX 格式
doc.save("pdf-to-word.docx")

Python PDF 到 DOCX 转换 - 指定加载选项

Aspose.Words for Python 还允许您根据需要自定义 PDF 文档的加载。例如,您可以仅加载 PDF 中的一系列页面、跳过图像、为加密文件指定密码等。要设置加载选项,使用 PdfLoadOptions 类。以下是在 Python PDF 到 DOCX 转换中指定加载选项的步骤。

  • 创建 PdfLoadOptions 类的实例。
  • 使用 PdfLoadOptions.loadformat 属性指定加载格式。
  • 设置skippdfimages、pageindex、pagecount等选项。
  • 使用 Document 类通过传递其路径和 PdfLoadOptions 作为参数来加载 PDF 文件。
  • 使用 Document.save() 方法将 PDF 文件保存为 DOCX 文档。

以下代码示例显示了如何在 Python 中指定 PDF 到 DOCX 转换中的加载选项。

import aspose.words as aw

# 创建 PDF 加载选项
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# 设置起始页的索引和页数
loadOptions.page_index = 0
loadOptions.page_count = 1

# 跳过 PDF 中的图像
loadOptions.skip_pdf_images = True

# 为加密的 PDF 文件设置密码
#loadOptions.password = "12345" 

# 加载 PDF 文件
doc = aw.Document("PDF.pdf", loadOptions)

# 将 PDF 转换为 Word
doc.save("pdf-to-word.docx")

Python PDF 到 DOCX 转换器 - 获得免费许可证

您可以获得临时许可证 以便在没有评估限制的情况下使用 Aspose.Words for Python。

结论

在本文中,您学习了如何在 Python 中将 PDF 文件转换为 DOCX。此外,您还了解了如何为 PDF 文件动态指定不同的加载选项。 Aspose.Words for Python 提供了广泛的其他功能,您可以使用 文档 探索这些功能。此外,您可以通过我们的 论坛 提出您的问题。

也可以看看