在 Python 中从 PDF 中提取文本

作为程序员,您可能需要处理一堆 PDF 文件并从中提取文本。出于各种目的,例如文本分析,可能需要从 PDF 中提取文本。在本文中,我们将演示用 Python 从 PDF 文件中提取文本是多么容易。此外,您将了解如何提取文本并保存到 TXT 文件中。

从 PDF 中提取文本的 Python 库 - 免费下载

Aspose.Words for Python 是一个了不起的库,可让您无缝地创建和处理文本文档。您可以处理 DOC、DOCX 和 PDF 等流行格式的文档。我们将使用这个库对我们的 PDF 文件执行文本提取。您可以使用以下 pip 命令从 PyPI 安装库。

> pip install aspose-words

如何在 Python 中从 PDF 中提取文本

Aspose.Words for Python 通过对用户隐藏复杂的操作,使 PDF 文本提取变得非常容易。您只需要加载 PDF 文件并保存提取的文本。以下步骤演示了如何使用 Aspose.Words for Python 从 PDF 中提取文本。

  • 从所需位置加载 PDF 文件。
  • 提取文本并将其保存到 .txt 文件中。

就是这样。然后,您可以处理 .txt 文件并操作从 PDF 中提取的纯文本。

现在让我们看看如何在 Python 中以编程方式从 PDF 中提取文本。

在 Python 中从 PDF 中提取文本

以下是 Python 中 PDF 文本提取的步骤以及类和方法。

  • 使用 Document 类加载 PDF 文件。
  • 使用 Document.save(fileName) 方法将文本从 PDF 提取到 .txt 文件中。

以下代码示例显示了从 Python 中的 PDF 文件中提取的文本。

# 导入 Aspose.Words for Python 模块
import aspose.words as aw

# 加载 PDF 文件
pdf = aw.Document("file.pdf")

# 提取文本并将其保存在 TXT 文件中
pdf.save("extracted-text.txt")

以下屏幕截图显示了我们用于文本提取的输入 PDF 文件。

PDF 在 Python 中提取文本

以下屏幕截图显示了 TXT 文件中提取的文本。

从 PDF 中提取文本到 TXT

Python 的 PDF 文本提取器 - 获取免费许可证

您可以获得 免费的临时许可证 从 PDF 中提取文本而不受评估限制。

结论

在本文中,您学习了如何在 Python 中从 PDF 文件中提取文本。您已经看到从 PDF 中提取文本并以编程方式将其保存在 TXT 文件中是多么容易和快速。现在,您可以在 Python 应用程序中为一批 PDF 文件实现文本提取。

探索 Aspose 的 Python PDF 文本提取器

您可以使用 文档 探索 Aspose.Words for Python 的其他功能。如果您有任何问题,请随时通过我们的 论坛 告诉我们。

也可以看看