在 C# 中使用 OCR 扫描 PDF 以进行搜索

PDF 文件有时基于通常使用扫描仪或成像设备创建的图像。您可以使用 OCR 将扫描的 PDF 文件转换为可搜索的 PDF 文件,以便可以在文档中编辑或更新文本。根据该场景,本文介绍了如何使用 C# 以编程方式通过 OCR 操作将扫描的 PDF 转换为可搜索的 PDF。

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – C# API 安装

您可以使用 Aspose.OCR for .NET API 对扫描的 PDF 文件执行 OCR 操作。只需通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令来配置 API:

PM> Install-Package Aspose.OCR

使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF

您可以按照以下步骤在光学识别文本的同时将扫描的 PDF 文件转换为可搜索的 PDF 文档:

  1. 初始化 AsposeOcr 类实例。
  2. 使用 RecognizePdf 方法识别 PDF 中的图像。
  3. 使用 DocumentRecognitionSettings 类为 OCR 识别设置不同的属性。
  4. 将 OCR 结果保存为可搜索的 PDF 文件。

下面的代码片段解释了如何使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF 文档:

// 扫描的多页 PDF 路径
string fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 类对象
AsposeOcr api = new AsposeOcr();

// 识别 PDF 中的图像           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 将结果另存为可搜索的 PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

获得免费评估许可证

您可以通过请求 免费临时许可证 来评估该功能以使用 OCR 操作识别扫描 PDF 中的文本,而不受任何限制。

结论

在本文中,您学习了如何通过在 C# 中以编程方式对其执行 OCR 操作,将扫描的 PDF 文件转换为可搜索的 PDF 文档。此外,您可以通过访问 文档 查看 API 提供的其他几个与 OCR 相关的功能。如有任何疑问,请随时通过 论坛 与我们联系。

也可以看看