在 C# 中使用 OCR 将扫描的 PDF 转换为可搜索的 PDF |识别文本 PDF

PDF 文件有时基于通常使用扫描仪或成像设备创建的图像。您可以使用 OCR 将扫描的 PDF 文件转换为可搜索的 PDF 文件，以便可以在文档中编辑或更新文本。根据该场景，本文介绍了如何使用 C# 以编程方式通过 OCR 操作将扫描的 PDF 转换为可搜索的 PDF。

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – C# API 安装
在 C# 中以编程方式将扫描的 PDF 转换为可搜索的 PDF

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – C# API 安装

您可以使用 Aspose.OCR for .NET API 对扫描的 PDF 文件执行 OCR 操作。只需通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令来配置 API：

PM> Install-Package Aspose.OCR

使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF

您可以按照以下步骤在光学识别文本的同时将扫描的 PDF 文件转换为可搜索的 PDF 文档：

初始化 AsposeOcr 类实例。
使用 RecognizePdf 方法识别 PDF 中的图像。
使用 DocumentRecognitionSettings 类为 OCR 识别设置不同的属性。
将 OCR 结果保存为可搜索的 PDF 文件。

下面的代码片段解释了如何使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF 文档：

// 扫描的多页 PDF 路径
string fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 类对象
AsposeOcr api = new AsposeOcr();

// 识别 PDF 中的图像           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 将结果另存为可搜索的 PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

获得免费评估许可证

您可以通过请求免费临时许可证来评估该功能以使用 OCR 操作识别扫描 PDF 中的文本，而不受任何限制。

结论

在本文中，您学习了如何通过在 C# 中以编程方式对其执行 OCR 操作，将扫描的 PDF 文件转换为可搜索的 PDF 文档。此外，您可以通过访问文档查看 API 提供的其他几个与 OCR 相关的功能。如有任何疑问，请随时通过论坛与我们联系。

也可以看看

使用 C# 使用 OCR 将图像转换为 Word 文档 (DOCX)

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – C# API 安装#

使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF#

获得免费评估许可证#

结论#

也可以看看#

通过 OCR 将扫描的 PDF 转换为可搜索的 PDF – C# API 安装

使用 C# 以编程方式将扫描的 PDF 转换为可搜索的 PDF

获得免费评估许可证

结论

也可以看看