在 Python 中将 PDF 转换为 Excel

在各种情况下可能需要 PDFExcel 的转换,例如,将 PDF 中的表格数据导出到电子表格,在 Excel 中自动执行任务,以及使用 Excel 的其他数据操作功能。在以编程方式处理 PDF 和 Excel 文件时,您可能需要在 Python 中自动将 PDF 转换为 Excel。为此,本文为您提供了使用 Python 将 PDF 文件转换为 Excel 的最简单解决方案。

此外,您将学习如何使用不同的选项自定义 PDF 到 Excel 的转换。此外,您还将获得一个免费的在线 PDF 到 Excel 转换器,您可以随时随地使用它。

Python PDF 到 Excel 转换器

对于 PDF 到 Excel XLS/XLSX 的转换,我们将使用 Aspose.PDF for Python。该库旨在从 Python 应用程序中创建、处理和转换 PDF 文件。

使用以下 pip 命令从 PyPI 安装库。

pip install aspose-pdf

在 Python 中将 PDF 转换为 Excel XLS

Aspose.PDF for Python 使将 PDF 转换为 Excel XLS 变得相当容易。您只需要加载 PDF 文件并将其另存为 XLS 到所需位置。您可以按照下面给出的步骤在 Python 应用程序中将 PDF 文件转换为 XLS。

  • 创建 Document 类的实例并使用输入 PDF 文件的路径对其进行初始化。
  • 创建 ExcelSaveOptions 类的对象并将输出格式设置为 XMLSPREADSHEET2003。
  • 使用输出 XLS 文件的名称和 ExcelSaveOptions 作为参数调用 Document.save() 方法。

以下代码示例显示了如何在 Python 中将 PDF 转换为 XLS。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"

# 打开PDF文件
document = ap.Document(input_pdf)

# 创建和设置保存选项
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)

输入PDF文件

如何在 Python 中将 PDF 转换为 XLS

转换后的 Excel 工作表

在 Python 中将 PDF 转换为 Excel

在 Python 中将 PDF 另存为 XLSX

您也可以用类似的方式将 PDF 转换为 XLSX。在这种情况下,您不需要指定任何输出格式。只需使用 .xlsx 扩展名保存转换后的 Excel 文件。以下是在 Python 中将 PDF 转换为 XLSX 的步骤。

  • 使用 Document 类加载 PDF 文件。
  • 创建 ExcelSaveOptions 类的对象。
  • 调用 Document.save() 方法并将输出文件的名称和 DocSaveOptions 对象作为参数传递。

以下代码示例显示了如何在 Python 中将 PDF 转换为 XLSX。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"

# 打开 PDF 文档
document = ap.Document(input_pdf)

# 创建保存选项
save_option = ap.ExcelSaveOptions()

# 将文件保存到 XLSX
document.save(output_pdf, save_option)

自定义 PDF 到 Excel 的转换

您还可以使用不同的选项自定义 PDF 到 Excel 的转换。以下部分演示了如何使用一些可用选项。

第一列为空的 PDF 到 Excel

此选项用于在转换后的 Excel 工作表中添加空白的第一列。要设置此选项,您将使用 ExcelSaveOptions 类。以下代码示例显示了如何使用此选项。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"

# 打开 PDF 文档
document = ap.Document(input_pdf)

# 创建保存选项
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True

# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)

最小化工作表数量

默认情况下,PDF 中的每个页面都会转换为 Excel 文件中的工作表。但是,您可以覆盖此行为以最小化 Excel 文件中的工作表数。为此,您需要将 ExcelSaveOptions.minimizethenumberofworksheets 属性设置为 True。以下代码示例显示了如何在 PDF 到 Excel 转换中最大限度地减少工作表数量。

import aspose.pdf as ap

input_pdf = DIR_INPUT + "multipage.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"

# 打开 PDF 文档
document = ap.Document(input_pdf)

# 创建保存选项
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True

# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)

在线 PDF 到 Excel 转换器

如果您想在线将 PDF 文件转换为 Excel 格式,请使用我们使用 Aspose.PDF 库开发的高质量免费 PDF 到 Excel 转换器。

免费 PDF 到 XLS 转换器

您可以 获得免费许可 将 PDF 文件转换为 Excel 格式,没有评估限制。

探索 PDF 到 Excel 转换器

您可以使用 文档 了解更多关于我们的 Python PDF 库的信息。此外,您可以随时通过我们的 论坛 让我们知道您的疑问。

结论

在本文中,您学习了如何使用 Python 将 PDF 文件转换为 Excel。我们已经明确涵盖了 PDF 到 XLS 和 XLSX 的转换。此外,您还看到了如何使用不同的选项自定义 PDF 到 Excel 的转换。此外,最后提供了一个免费的在线 PDF 到 Excel 转换器,您可以使用它来转换任意数量的 PDF 文件。

也可以看看