在 C# 中将扫描的 PDF 转换为 Word DOCX 或 DOC 文件

扫描的 PDF 文件包含无法选择或编辑文本的图像。在某些情况下，您可能需要将扫描的 PDF 转换为 Word 文档。在本文中，您将学习如何使用 C# 以编程方式将扫描的 PDF 转换为 DOCX 或 DOC 格式的 Word 文档：

扫描的 PDF 到 Word DOCX 转换器 – C# API 安装
使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档

扫描的 PDF 到 Word DOCX 转换器 – C# API 安装

您可以通过使用 Aspose.OCR for .NET API 执行 OCR 操作来处理扫描的 PDF 文件，然后使用 Aspose.Words for .NET API 使用 C# 以编程方式创建 Word 文档。您可以通过从 New Releases 下载 DLL 文件或使用以下 NuGet 安装命令来配置 API：

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档

您可以通过光学识别文本将扫描的 PDF 文件转换为 Word 文档。 OCR 操作将扫描的 PDF 转换为文本，然后以 DOC 或 DOCX 格式生成 Word 文档。请按照以下步骤将扫描的 PDF 转换为 Word 文档：

初始化 AsposeOcr 类实例。
使用 DocumentRecognitionSettings 类识别 PDF 中的图像。
初始化 StringBuilder 类对象并保存文本。
使用 Document 类初始化 word 文档。
指定字体和段落格式。
将输出的 Word 文档保存为 DOCX 或 DOC 文件。

以下代码片段显示了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 Word 文档：

// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();

// 使用 DocumentRecognitionSettings 类识别 PDF 中的图像    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// 初始化 StringBuilder 类对象
StringBuilder text = new StringBuilder();

// 将结果另存为文本
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// 使用 Document 类初始化 word 文档。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 指定字体格式
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// 指定段落格式
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// 保存输出 Word 文档。 
doc.Save("Scanned_PDF_to_Word.docx");

获得免费评估许可证

您可以通过申请免费临时许可证来全面测试 API。

结论

在本文中，您学习了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。此外，您可以通过访问文档探索其他几个与 OCR 相关的功能。如有任何疑问，请随时通过论坛与我们联系。

也可以看看

在 C# 中将扫描的 PDF 文件转换为文本

提示：如果您需要从 PowerPoint 演示文稿中获取 Word 文档，您可以使用 Aspose Presentation to Word Document 转换器。

扫描的 PDF 到 Word DOCX 转换器 – C# API 安装#

使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档#

获得免费评估许可证#

结论#

也可以看看#

扫描的 PDF 到 Word DOCX 转换器 – C# API 安装

使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档

获得免费评估许可证

结论

也可以看看