PDF 到 Word OCR Python

将扫描的 PDF 转换为 Word 文档具有多种优势,例如编辑文档中的文本,可以轻松进行更改或更新。它还支持文本搜索,这对于大型文档或进行研究时非常有价值。此外,您还可以在 Python 中执行 OCR 时执行拼写检查以纠正任何拼写错误或拼写错误的单词。因此,本文介绍了如何使用 Aspose.OCR for Python via .NET 库在 Python 中使用 OCR 将扫描的 PDF 转换为 Word 文档。

使用 OCR 将 PDF 转换为 Word – Python API 安装

在我们深入研究文本识别之前,让我们确保已经设置了在 Python 中运行 OCR 所需的环境。确保您的系统上安装了Python,最好是3.x或更高版本,以及可靠的代码编辑器或集成开发环境(IDE),例如Visual Studio Code或IDLE等。然后您需要配置Aspose.OCR通过 .NET 使用 Python,同时使用以下安装命令从 New Releases 部分或 PyPi 访问它:

pip install aspose-ocr-python-net

使用 Python 中的 OCR 将扫描的 PDF 转换为 Word

您可以按照以下步骤使用 OCR 将扫描的 PDF 转换为 Word:

  1. 使用 AsposeOcr 类初始化 API。
  2. 为识别设置不同的设置。
  3. 使用 OCR 识别文本并保存输出 DOCX Word 文件。

以下代码片段演示了如何在 Python 中使用 OCR 将扫描的 PDF 转换为 Word:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

使用 Python 中的 OCR 和拼写检查将 PDF 转换为 Word

OCR 引擎有时可能会产生不准确的结果,尤其是在处理复杂的布局、手写或低质量扫描时。在这种情况下,拼写纠正对于提高转换文本的准确性起着至关重要的作用。本节特别讨论使用 OCR 和 Python 中的拼写检查功能将 PDF 转换为 Word。您需要按照以下步骤来满足这些要求:

  1. 初始化 AsposeOcr 类的实例。
  2. 使用 RecognitionSettings 类设置不同的属性。
  3. 使用 OCR 识别 PDF 并对提取的字符串进行拼写检查。
  4. 以 DOCX 格式导出输出 Word 文档。

下面的示例代码说明了如何在 Python 中使用 OCR 将 PDF 转换为 Word 文档:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

获取免费评估许可证

您可以获得免费临时许可证以避免任何评估限制和水印。

加起来

在这篇博文中,我们探讨了如何使用 Python 中的 OCR 将扫描的 PDF 转换为 Word 文档。我们讨论了 OCR 的重要性及其优点,提供了设置环境、使用不同方法从 PDF 文档中提取文本并指定多个设置并将其保存到 Word 文档的分步指南。本指南使您能够使用 Python 和 OCR 自动将扫描的 PDF 转换为可编辑的 Word 文档,从而开启数据提取和操作的可能性世界。如果您需要讨论任何问题,请随时在 免费支持论坛 给我们写信。

也可以看看