扫描的 pdf 到文本 csharp

扫描的 PDF 文件基本上是由扫描仪或相机捕获的一个或多个平面图像。您不能复制、粘贴或处理此类文件中的信息。本文介绍如何在 C# 中将扫描的 PDF 转换为文本。

扫描的 PDF 到文本转换 – C# API 安装

Aspose.OCR for .NET API 用于执行 OCR 操作。它可以从图像或扫描的 PDF 文档中光学识别字符。请通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令来配置 API。

PM> Install-Package Aspose.OCR

在 C# 中将扫描的 PDF 转换为文本字符串

您可以通过对其执行 OCR 操作将扫描的 PDF 文件转换为文本字符串。您需要按照以下步骤打印扫描的 PDF 文档中的文本:

  1. 指定用于识别扫描的 PDF 文件的设置。
  2. 初始化 AsposeOcr 类实例。
  3. 初始化 RecognitionResult 类对象。
  4. 从扫描的 PDF 中识别文本后打印文本。

以下代码片段显示了如何在 C# 中识别扫描 PDF 中的文本:

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 指定用于识别扫描的 PDF 文件的设置
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 初始化 RecognitionResult 类对象
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// 从扫描的 PDF 中识别文本后打印文本
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件

您可以按照以下步骤将扫描的 PDF 文件转换为 TXT 文件:

  1. 实例化 AsposeOcr 类对象。
  2. 创建 DocumentRecognitionSettings 类对象。
  3. 保存识别结果并初始化StringBuilder类实例。
  4. 将结果保存在 TXT 文件中。

下面的代码片段解释了如何在 C# 中以编程方式将扫描的 PDF 文件转换为 TXT 文件:

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 识别 PDF 中的图像           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// 初始化 StringBuilder 类对象
StringBuilder builder = new StringBuilder();

// 将结果保存在 TXT 文件中
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

获得免费评估许可证

您可以申请 免费评估许可证 以全面测试 API。

结论

在本文中,您了解了如何使用 C# 以编程方式将扫描的 PDF 转换为文本字符串或文本文件。此外,您可以通过访问 文档 检查 API 的其他几个特性。如有任何疑虑,请随时通过 论坛 与我们联系。

也可以看看