
扫描的 PDF 文件基本上是由扫描仪或相机捕获的一个或多个平面图像。您不能复制、粘贴或处理此类文件中的信息。本文介绍如何在 C# 中将扫描的 PDF 转换为文本。
扫描的 PDF 到文本转换 – C# API 安装
Aspose.OCR for .NET API 用于执行 OCR 操作。它可以从图像或扫描的 PDF 文档中光学识别字符。请通过从 New Releases 部分下载 DLL 文件或使用以下 NuGet 安装命令来配置 API。
PM> Install-Package Aspose.OCR
在 C# 中将扫描的 PDF 转换为文本字符串
您可以通过对其执行 OCR 操作将扫描的 PDF 文件转换为文本字符串。您需要按照以下步骤打印扫描的 PDF 文档中的文本:
- 指定用于识别扫描的 PDF 文件的设置。
- 初始化 AsposeOcr 类实例。
- 初始化 RecognitionResult 类对象。
- 从扫描的 PDF 中识别文本后打印文本。
以下代码片段显示了如何在 C# 中识别扫描 PDF 中的文本:
// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();
// 指定用于识别扫描的 PDF 文件的设置
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 初始化 RecognitionResult 类对象
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// 从扫描的 PDF 中识别文本后打印文本
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
在 C# 中以编程方式将扫描的 PDF 转换为 TXT 文件
您可以按照以下步骤将扫描的 PDF 文件转换为 TXT 文件:
- 实例化 AsposeOcr 类对象。
- 创建 DocumentRecognitionSettings 类对象。
- 保存识别结果并初始化StringBuilder类实例。
- 将结果保存在 TXT 文件中。
下面的代码片段解释了如何在 C# 中以编程方式将扫描的 PDF 文件转换为 TXT 文件:
// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();
// 识别 PDF 中的图像
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// 初始化 StringBuilder 类对象
StringBuilder builder = new StringBuilder();
// 将结果保存在 TXT 文件中
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
获得免费评估许可证
您可以申请 免费评估许可证 以全面测试 API。
结论
在本文中,您了解了如何使用 C# 以编程方式将扫描的 PDF 转换为文本字符串或文本文件。此外,您可以通过访问 文档 检查 API 的其他几个特性。如有任何疑虑,请随时通过 论坛 与我们联系。