扫描的 PDF 到 Excel OCR

扫描的 PDF 文件包含图像格式的数据,有时您可能需要此类文件中的信息。在某些情况下,扫描的 PDF 文件可能包含可能需要在 Excel 中处理的数字信息。据此,您可以执行 OCR 操作并创建 Excel 文件。本文介绍如何使用 C# 以编程方式创建具有 OCR 功能的扫描 PDF 到 Excel 转换器。

使用 OCR 创建扫描的 PDF 到 Excel 转换器 – C# API 安装

您可以使用 Aspose.OCR for .NET API 提供的 OCR 功能。您可以通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令轻松地使用 OCR 创建扫描的 PDF 到 Excel 转换器:

PM> Install-Package Aspose.OCR

在 C# 中以编程方式将扫描的 PDF 转换为 Excel

您可以按照以下步骤使用 OCR 将扫描的 PDF 文档转换为 Excel 文件:

  1. 实例化 AsposeOcr 类对象。
  2. 指定 DocumentRecognitionSettings 类对象。
  3. 使用 RecognizePdf 方法识别扫描的 PDF 文件。
  4. 使用 SaveMultipageDocument 方法保存输出 Excel 文件。

以下代码示例说明了如何使用 C# 将扫描的 PDF 转换为 Excel:

// 扫描的 PDF 文件路径
string path = "Scanned.pdf";

// 初始化 AsposeOcr 类对象
AsposeOcr api = new AsposeOcr();

// 指定识别 PDF 文件的设置
DocumentRecognitionSettings settings = new DocumentRecognitionSettings();
settings.StartPage = 0;
settings.PagesNumber = 1;

// 从扫描的 PDF 文件中识别页面
List<RecognitionResult> res = api.RecognizePdf(path , settings);

// 将输出结果保存为 XLSX 格式的 Excel 文件
AsposeOcr.SaveMultipageDocument("output.xlsx", SaveFormat.Xlsx, res);

获得免费评估许可证

您可以通过申请 免费临时许可证 来评估将扫描的 PDF 转换为 Excel 的全部功能。

结论

在本文中,您检查了如何通过应用 OCR 操作以光学方式识别文本,将扫描的 PDF 文件转换为 Excel。这在扫描仪扫描 CSV 文件并生成 PDF 文件等情况下会很有帮助。您可以使用 C# 以编程方式将其转换为 Excel 文件。此外,您可以通过 文档 查看 API 提供的其他 OCR 相关功能。如有任何疑问,请随时通过 论坛 与我们联系。

也可以看看