在 C# 中以编程方式将扫描的 PDF 文档转换为文本文件 |扫描的 PDF 到文本

扫描的 PDF 文件基本上是由扫描仪或相机捕获的一个或多个平面图像。您不能复制、粘贴或处理此类文件中的信息。本文介绍如何在 C# 中将扫描的 PDF 转换为文本。

扫描的 PDF 到文本转换 – C# API 安装
在 C# 中将扫描的 PDF 转换为文本字符串
在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件

扫描的 PDF 到文本转换 – C# API 安装

Aspose.OCR for .NET API 用于执行 OCR 操作。它可以从图像或扫描的 PDF 文档中光学识别字符。请通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令来配置 API。

PM> Install-Package Aspose.OCR

在 C# 中将扫描的 PDF 转换为文本字符串

您可以通过对其执行 OCR 操作将扫描的 PDF 文件转换为文本字符串。您需要按照以下步骤打印扫描的 PDF 文档中的文本：

指定用于识别扫描的 PDF 文件的设置。
初始化 AsposeOcr 类实例。
初始化 RecognitionResult 类对象。
从扫描的 PDF 中识别文本后打印文本。

以下代码片段显示了如何在 C# 中识别扫描 PDF 中的文本：

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 指定用于识别扫描的 PDF 文件的设置
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 初始化 RecognitionResult 类对象
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// 从扫描的 PDF 中识别文本后打印文本
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件

您可以按照以下步骤将扫描的 PDF 文件转换为 TXT 文件：

实例化 AsposeOcr 类对象。
创建 DocumentRecognitionSettings 类对象。
保存识别结果并初始化StringBuilder类实例。
将结果保存在 TXT 文件中。

下面的代码片段解释了如何在 C# 中以编程方式将扫描的 PDF 文件转换为 TXT 文件：

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 识别 PDF 中的图像           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// 初始化 StringBuilder 类对象
StringBuilder builder = new StringBuilder();

// 将结果保存在 TXT 文件中
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

获得免费评估许可证

您可以申请免费评估许可证以全面测试 API。

结论

在本文中，您了解了如何使用 C# 以编程方式将扫描的 PDF 转换为文本字符串或文本文件。此外，您可以通过访问文档检查 API 的其他几个特性。如有任何疑虑，请随时通过论坛与我们联系。

也可以看看

使用 C# 使用 OCR 将图像转换为可搜索的 PDF

扫描的 PDF 到文本转换 – C# API 安装#

在 C# 中将扫描的 PDF 转换为文本字符串#

在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件#

获得免费评估许可证#

结论#

也可以看看#

扫描的 PDF 到文本转换 – C# API 安装

在 C# 中将扫描的 PDF 转换为文本字符串

在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件

获得免费评估许可证

结论

也可以看看