扫描的 PDF 到 Word OCR csharp

扫描的 PDF 文件包含无法选择或编辑文本的图像。在某些情况下,您可能需要将扫描的 PDF 转换为 Word 文档。在本文中,您将学习如何使用 C# 以编程方式将扫描的 PDF 转换为 DOCXDOC 格式的 Word 文档:

扫描的 PDF 到 Word DOCX 转换器 – C# API 安装

您可以通过使用 Aspose.OCR for .NET API 执行 OCR 操作来处理扫描的 PDF 文件,然后使用 Aspose.Words for .NET API 使用 C# 以编程方式创建 Word 文档。您可以通过从 New Releases 下载 DLL 文件或使用以下 NuGet 安装命令来配置 API:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档

您可以通过光学识别文本将扫描的 PDF 文件转换为 Word 文档。 OCR 操作将扫描的 PDF 转换为文本,然后以 DOC 或 DOCX 格式生成 Word 文档。请按照以下步骤将扫描的 PDF 转换为 Word 文档:

  1. 初始化 AsposeOcr 类实例。
  2. 使用 DocumentRecognitionSettings 类识别 PDF 中的图像。
  3. 初始化 StringBuilder 类对象并保存文本。
  4. 使用 Document 类初始化 word 文档。
  5. 指定字体和段落格式。
  6. 将输出的 Word 文档保存为 DOCX 或 DOC 文件。

以下代码片段显示了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 Word 文档:

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 使用 DocumentRecognitionSettings 类识别 PDF 中的图像    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// 初始化 StringBuilder 类对象
StringBuilder text = new StringBuilder();

// 将结果另存为文本
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// 使用 Document 类初始化 word 文档。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 指定字体格式
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// 指定段落格式
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// 保存输出 Word 文档。 
doc.Save("Scanned_PDF_to_Word.docx");

获得免费评估许可证

您可以通过申请 免费临时许可证 来全面测试 API。

结论

在本文中,您学习了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。此外,您可以通过访问 文档 探索其他几个与 OCR 相关的功能。如有任何疑问,请随时通过 论坛 与我们联系。

也可以看看

提示:如果您需要从 PowerPoint 演示文稿中获取 Word 文档,您可以使用 Aspose Presentation to Word Document 转换器。