在 Python 中 OCR PDF 和从 PDF 中提取文本

光学字符识别 (OCR) 技术在数字化各种来源(包括 PDF 文档)的打印、扫描或手写文本方面发挥着关键作用。在这篇博文中,我们将学习如何使用 Python 对 PDF 文档进行 OCR 并从 PDF 中提取文本。

本文涵盖以下主题:

  1. PDF 转 TXT Python OCR API
  2. OCR PDF 和从 PDF 中提取文本
  3. 将扫描的 PDF 保存为文本
  4. 免费学习资源

PDF 到 TXT - Python OCR API

我们将使用 Aspose.OCR for Python 对 PDF 文档执行 OCR 并从 PDF 中提取文本。 Aspose.OCR for Python 是一个功能强大的光学字符识别 (OCR) API,可以识别扫描图像、智能手机照片、屏幕截图和图像区域中的文本。 API 以最流行的文档和数据交换格式(包括 PDF、XML、JSON 和纯文本)返回已识别的文本结果。

除了将图像转换为文本之外,Aspose.OCR for Python 还可以基于扫描创建可搜索的 PDF。该 API 还可以自动更正已识别文本中的拼写错误,使其成为各种应用程序的理想选择。

下载软件包或在控制台中使用以下 pip 命令从 PyPI 安装 API:

pip install aspose-ocr-python-net

Python OCR PDF - 在 Python 中从 PDF 中提取文本

我们可以按照以下步骤对PDF文档进行OCR并提取识别出的文本:

  1. 创建 AsposeOcr 类的实例。
  2. 初始化 DocumentRecognitionSettings 类的对象。
  3. 将 PDF 文件添加到识别批次中。
  4. 之后,调用 recognize() 方法。
  5. 最后,使用 RecognitionResult 类显示识别的文本。

以下示例代码演示了如何使用 Python 对 PDF 文档进行 OCR 并从 PDF 中提取文本。

# 此代码示例演示如何使用 Python 从扫描的 PDF 文档中识别和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化识别设置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 将文件添加到识别批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 访问扫描的 PDF 并设置页码和总页数
files.add("C:\\Files\\sample.pdf", 0, 1)

# 识别文字
result = api.recognize(files , settings)

# 打印识别结果
print(result[0].recognition_text)

Python OCR PDF - 在 Python 中将扫描的 PDF 保存为文本

我们可以按照以下步骤对PDF文档进行OCR并保存识别的文本:

  1. 创建 AsposeOcr 类的实例。
  2. 初始化 DocumentRecognitionSettings 类的对象。
  3. 将 PDF 文件添加到识别批次中。
  4. 之后,调用 recognize() 方法。
  5. 最后,使用 savemultipagedocument() 方法保存文本。它将输出文件路径、SaveFormat 和 RecognitionResult 对象作为参数。

以下示例代码展示了如何 OCR PDF 文档并在 Python 中保存识别的文本。

# 此代码示例演示如何使用 Python 保存识别和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化识别设置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 将文件添加到识别批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 访问扫描的 PDF 并设置页码和总页数
files.add("C:\\Files\\sample.pdf", 0, 1)

# 识别文字
result = api.recognize(files , settings)

# 打印识别结果
print(result[0].recognition_text)

# 保存提取的文本
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

获取免费评估许可证

您可以获得免费的临时许可证来试用该库,而不受评估限制。

Python OCR PDF - 免费资源

您可以进一步探索以下资源来学习Python OCR API:

结论

在本文中,我们学习了如何使用 Python 对 PDF 文档执行 OCR 并从 PDF 中提取文本。使用 OCR 从 PDF 中提取文本的能力改变了许多行业的游戏规则,从归档和法律文档到数据分析和内容数字化。通过利用 Aspose.OCR for Python,开发人员和爱好者可以将 OCR 功能无缝集成到他们的 Python 项目中。如有任何疑问,请随时通过我们的免费支持论坛与我们联系。

也可以看看