OCR PDF Python

由于缺乏可搜索或可编辑的文本,扫描的 PDF 文档通常难以使用。然而,借助光学字符识别 (OCR) 技术的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已成为现实。在这篇博文中,您将学习如何在 Python 中使用 OCR 执行 PDF 文本识别。我们还将探索如何从扫描的 PDF 文件中提取文本,将其转换为可搜索或可编辑的 PDF,并使用 Aspose.OCR for Python via .NET 库释放 Python OCR 功能的潜力。

使用 OCR 识别扫描 PDF 中的文本 – Python API 安装

光学字符识别 (OCR) 是一种将图像或扫描文档转换为机器可读文本的技术。通过分析图像中字符的形状和图案,OCR 算法识别和识别文本,从而可以提取和处理其中包含的信息。在开始之前,您需要通过 .NET 从 New Releases 页面下载安装 Aspose.OCR for Python,或者通过运行以下安装命令从 PyPi 配置它:

pip install aspose-ocr-python-net

使用 Python 中的 OCR 识别 PDF 中的文本

您可以使用 Python 中的 OCR 识别或提取 PDF 中的文本。它将有效地从扫描的 PDF 文档中提取文本,以下步骤概述了使用 Python 中的 OCR 识别 PDF 中的文本的简单过程:

  1. 实例化 AsposeOcr 类的对象。
  2. 加载扫描的 PDF 文件。
  3. 使用 OCR 识别文本并将输出打印到控制台。

下面的示例代码展示了如何使用 Python 中的 OCR 识别 PDF 中的文本:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索或可编辑的 PDF

扫描的 PDF 文件包含无法搜索文本的图像,因此您需要将其转换为可搜索的 PDF 文档,以使文档可供机器读取并进行相应的进一步处理。请按照以下步骤将其转换为Python中可搜索或可编辑的PDF文档:

  1. 创建 AsposeOcr 类的对象。
  2. 初始化 [RecognitionSettings][5] 类实例并设置所需的属性。
  3. 加载 PDF 文件并设置 OCR 识别的页面范围。
  4. 保存输出的可搜索 PDF 文件。

以下示例代码展示了如何使用 Python 中的 OCR 将扫描的 PDF 转换为可搜索的 PDF 文档:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

值得注意的是,您可以对 PDF 文档中的任何范围的页面进行 OCR。例如,仅在页面索引从零开始且最后一个参数是要使用 API 处理的页面数的情况下识别特定页面中的文本。此外,您可以设置不同的识别设置来对源文件进行预处理,例如消除噪音、设置对比度、检查输入页面的倾斜度等,以增强 OCR 对文本的精确识别。

获取免费评估许可证

您可以请求免费临时许可证来评估 API,没有任何评估限制。

加起来

借助 OCR 技术和 Python 的强大功能,从扫描的 PDF 中提取文本并将其转换为可搜索或可编辑的格式已变得非常容易。这里我们探索了Python中使用OCR进行PDF文本识别的过程。我们讨论了安装过程、从扫描的 PDF 中提取文本、OCR 实施以及将扫描的 PDF 转换为可搜索或可编辑的格式。通过利用 OCR 功能并采用先进技术,您可以释放扫描 PDF 的全部潜力,并使其在您的项目中更易于访问和通用。如有任何歧义或疑问,请通过免费支持论坛与我们联系。

也可以看看