在 Python 中从 PDF 中提取文本

在处理 PDF 文件时,您经常需要从页面中提取内容作为纯文本。此纯文本可进一步用于各种目的,例如文本分析、文本处理等。在本文中,您将学习如何使用 Python 从 PDF 中提取文本。借助代码示例,本文将演示如何在整个 PDF 或单个页面上执行文本提取。

从 PDF 中提取文本的 Python 库

要从 PDF 文件中提取文本,我们将使用 Aspose.PDF for Python。它是一个功能强大的 PDF 操作库,可让您创建和处理 PDF 文件。此外,它还允许您将 PDF 文件转换为其他格式。

您可以使用以下 pip 命令安装 Aspose.PDF for Python。

pip install aspose-pdf

在 Python 中从 PDF 中提取文本

以下是使用 Python 从 PDF 中提取文本的步骤。

  • 使用 Document 类加载 PDF 文件。
  • 创建 TextDevice 类的实例。
  • 开始循环页数次数。
  • 在每次迭代中,使用 TextDevice.process() 方法从页面中提取文本,并将提取的文本保存在 .txt 文件中。

以下代码示例显示了如何使用 Python 从 PDF 中提取文本。

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# 打开 PDF 文档
document = ap.Document("input.pdf")

# 创建文本设备
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # 将页面导出到 TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

从 PDF 的特定页面中提取文本

您还可以使用 Document.pages 数组中的页码从 PDF 的特定页面中提取文本。以下代码示例显示如何从 PDF 中的特定页面提取文本。

import aspose.pdf as ap

# 打开 PDF 文档
document = ap.Document("input.pdf")

# 创建文本设备
textDevice = ap.devices.TextDevice()

# 从第一页提取文本
textDevice.process(document.pages[1], "extracted_text.txt")

在线从 PDF 中提取文本

您还可以使用我们的在线 PDF 文本提取工具 从 PDF 文件中提取文本。这是一个免费工具,您无需任何订阅或注册即可使用。

免费的 PDF 文本提取库

获取您的 免费临时许可证 并不受任何限制地从 PDF 文件中提取文本。

探索 Python PDF 库

您可以使用 文档 探索更多关于 Python PDF 库的信息。此外,您可以将您的问题发布到我们的论坛

结论

在本文中,您学习了如何使用 Python 从 PDF 中提取文本。这些步骤和代码示例演示了如何从整个 PDF 或特定页面中提取文本。您可以轻松地安装该库并从您的 Python 应用程序中执行文本提取。

也可以看看