在处理 PDF 文件时,您经常需要从页面中提取内容作为纯文本。此纯文本可进一步用于各种目的,例如文本分析、文本处理等。在本文中,您将学习如何使用 Python 从 PDF 中提取文本。借助代码示例,本文将演示如何在整个 PDF 或单个页面上执行文本提取。
从 PDF 中提取文本的 Python 库
要从 PDF 文件中提取文本,我们将使用 Aspose.PDF for Python。它是一个功能强大的 PDF 操作库,可让您创建和处理 PDF 文件。此外,它还允许您将 PDF 文件转换为其他格式。
您可以使用以下 pip 命令安装 Aspose.PDF for Python。
pip install aspose-pdf
在 Python 中从 PDF 中提取文本
以下是使用 Python 从 PDF 中提取文本的步骤。
- 使用 Document 类加载 PDF 文件。
- 创建 TextDevice 类的实例。
- 开始循环页数次数。
- 在每次迭代中,使用 TextDevice.process() 方法从页面中提取文本,并将提取的文本保存在 .txt 文件中。
以下代码示例显示了如何使用 Python 从 PDF 中提取文本。
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# 打开 PDF 文档
document = ap.Document("input.pdf")
# 创建文本设备
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# 将页面导出到 TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
从 PDF 的特定页面中提取文本
您还可以使用 Document.pages 数组中的页码从 PDF 的特定页面中提取文本。以下代码示例显示如何从 PDF 中的特定页面提取文本。
import aspose.pdf as ap
# 打开 PDF 文档
document = ap.Document("input.pdf")
# 创建文本设备
textDevice = ap.devices.TextDevice()
# 从第一页提取文本
textDevice.process(document.pages[1], "extracted_text.txt")
在线从 PDF 中提取文本
您还可以使用我们的在线 PDF 文本提取工具 从 PDF 文件中提取文本。这是一个免费工具,您无需任何订阅或注册即可使用。
免费的 PDF 文本提取库
获取您的 免费临时许可证 并不受任何限制地从 PDF 文件中提取文本。
探索 Python PDF 库
您可以使用 文档 探索更多关于 Python PDF 库的信息。此外,您可以将您的问题发布到我们的论坛。
结论
在本文中,您学习了如何使用 Python 从 PDF 中提取文本。这些步骤和代码示例演示了如何从整个 PDF 或特定页面中提取文本。您可以轻松地安装该库并从您的 Python 应用程序中执行文本提取。