由于缺乏可搜索或可编辑的文本,扫描的 PDF 文档通常难以使用。然而,借助光学字符识别 (OCR) 技术的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已成为现实。在这篇博文中,您将学习如何在 Python 中使用 OCR 执行 PDF 文本识别。我们还将探索如何从扫描的 PDF 文件中提取文本,将其转换为可搜索或可编辑的 PDF,并使用 Aspose.OCR for Python via .NET 库释放 Python OCR 功能的潜力。
- 使用 OCR 识别扫描 PDF 中的文本 – Python API 安装
- 使用 Python 中的 OCR 识别 PDF 中的文本
- 使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF
使用 OCR 识别扫描 PDF 中的文本 – Python API 安装
光学字符识别 (OCR) 是一种将图像或扫描文档转换为机器可读文本的技术。通过分析图像中字符的形状和图案,OCR 算法识别和识别文本,从而可以提取和处理其中包含的信息。在开始之前,您需要通过 .NET 从 New Releases 页面下载安装 Aspose.OCR for Python,或者通过运行以下安装命令从 PyPi 配置它:
pip install aspose-ocr-python-net
使用 Python 中的 OCR 识别 PDF 中的文本
您可以使用 Python 中的 OCR 识别或提取 PDF 中的文本。它将有效地从扫描的 PDF 文档中提取文本,以下步骤概述了使用 Python 中的 OCR 识别 PDF 中的文本的简单过程:
- 实例化 AsposeOcr 类的对象。
- 加载扫描的 PDF 文件。
- 使用 OCR 识别文本并将输出打印到控制台。
下面的示例代码展示了如何使用 Python 中的 OCR 识别 PDF 中的文本:
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF
扫描的 PDF 文件包含无法搜索文本的图像,因此您需要将其转换为可搜索的 PDF 文档,以使文档可供机器读取并进行相应的进一步处理。请按照以下步骤将其转换为Python中可搜索或可编辑的PDF文档:
- 创建 AsposeOcr 类的对象。
- 初始化 [RecognitionSettings][5] 类实例并设置所需的属性。
- 加载 PDF 文件并设置 OCR 识别的页面范围。
- 保存输出的可搜索 PDF 文件。
以下示例代码展示了如何使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索的 PDF 文档:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
值得注意的是,您可以对 PDF 文档中的任何范围的页面进行 OCR。例如,仅在页面索引从零开始且最后一个参数是要使用 API 处理的页面数的情况下识别特定页面中的文本。此外,您可以设置不同的识别设置来对源文件进行预处理,例如消除噪音、设置对比度、检查输入页面的倾斜度等,以增强 OCR 对文本的精确识别。
获取免费评估许可证
您可以请求免费临时许可证来评估 API,没有任何评估限制。
加起来
借助 OCR 技术和 Python 的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已变得非常容易。这里我们探索了Python中使用OCR进行PDF文本识别的过程。我们讨论了安装过程、从扫描的 PDF 中提取文本、OCR 实施以及将扫描的 PDF 转换为可搜索或可编辑的格式。通过利用 OCR 功能并采用先进技术,您可以释放扫描 PDF 的全部潜力,并使其在您的项目中更易于访问和通用。如有任何歧义或疑问,请通过免费支持论坛与我们联系。