光学字符识别 (OCR) 技术在数字化各种来源(包括 PDF 文档)的打印、扫描或手写文本方面发挥着关键作用。在这篇博文中,我们将学习如何使用 Python 对 PDF 文档进行 OCR 并从 PDF 中提取文本。
本文涵盖以下主题:
PDF 到 TXT - Python OCR API
我们将使用 Aspose.OCR for Python 对 PDF 文档执行 OCR 并从 PDF 中提取文本。 Aspose.OCR for Python 是一个功能强大的光学字符识别 (OCR) API,可以识别扫描图像、智能手机照片、屏幕截图和图像区域中的文本。 API 以最流行的文档和数据交换格式(包括 PDF、XML、JSON 和纯文本)返回已识别的文本结果。
除了将图像转换为文本之外,Aspose.OCR for Python 还可以基于扫描创建可搜索的 PDF。该 API 还可以自动更正已识别文本中的拼写错误,使其成为各种应用程序的理想选择。
请下载软件包或在控制台中使用以下 pip 命令从 PyPI 安装 API:
pip install aspose-ocr-python-net
Python OCR PDF - 在 Python 中从 PDF 中提取文本
我们可以按照以下步骤对PDF文档进行OCR并提取识别出的文本:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 将 PDF 文件添加到识别批次中。
- 之后,调用 recognize() 方法。
- 最后,使用 RecognitionResult 类显示识别的文本。
以下示例代码演示了如何使用 Python 对 PDF 文档进行 OCR 并从 PDF 中提取文本。
# 此代码示例演示如何使用 Python 从扫描的 PDF 文档中识别和提取文本。
import aspose.ocr as ocr
# 初始化 OCR 引擎
api = ocr.AsposeOcr()
# 初始化识别设置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 将文件添加到识别批次
files = ocr.OcrInput(ocr.InputType.PDF)
# 访问扫描的 PDF 并设置页码和总页数
files.add("C:\\Files\\sample.pdf", 0, 1)
# 识别文字
result = api.recognize(files , settings)
# 打印识别结果
print(result[0].recognition_text)
Python OCR PDF - 在 Python 中将扫描的 PDF 保存为文本
我们可以按照以下步骤对PDF文档进行OCR并保存识别的文本:
- 创建 AsposeOcr 类的实例。
- 初始化 DocumentRecognitionSettings 类的对象。
- 将 PDF 文件添加到识别批次中。
- 之后,调用 recognize() 方法。
- 最后,使用 savemultipagedocument() 方法保存文本。它将输出文件路径、SaveFormat 和 RecognitionResult 对象作为参数。
以下示例代码展示了如何 OCR PDF 文档并在 Python 中保存识别的文本。
# 此代码示例演示如何使用 Python 保存识别和提取文本。
import aspose.ocr as ocr
# 初始化 OCR 引擎
api = ocr.AsposeOcr()
# 初始化识别设置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 将文件添加到识别批次
files = ocr.OcrInput(ocr.InputType.PDF)
# 访问扫描的 PDF 并设置页码和总页数
files.add("C:\\Files\\sample.pdf", 0, 1)
# 识别文字
result = api.recognize(files , settings)
# 打印识别结果
print(result[0].recognition_text)
# 保存提取的文本
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
获取免费评估许可证
您可以获得免费的临时许可证来试用该库,而不受评估限制。
Python OCR PDF - 免费资源
您可以进一步探索以下资源来学习Python OCR API:
结论
在本文中,我们学习了如何使用 Python 对 PDF 文档执行 OCR 并从 PDF 中提取文本。使用 OCR 从 PDF 中提取文本的能力改变了许多行业的游戏规则,从归档和法律文档到数据分析和内容数字化。通过利用 Aspose.OCR for Python,开发人员和爱好者可以将 OCR 功能无缝集成到他们的 Python 项目中。如有任何疑问,请随时通过我们的免费支持论坛与我们联系。