扫描的 PDF 文件包含无法选择或编辑文本的图像。在某些情况下,您可能需要将扫描的 PDF 转换为 Word 文档。在本文中,您将学习如何使用 C# 以编程方式将扫描的 PDF 转换为 DOCX 或 DOC 格式的 Word 文档:
扫描的 PDF 到 Word DOCX 转换器 – C# API 安装
您可以通过使用 Aspose.OCR for .NET API 执行 OCR 操作来处理扫描的 PDF 文件,然后使用 Aspose.Words for .NET API 使用 C# 以编程方式创建 Word 文档。您可以通过从 New Releases 下载 DLL 文件或使用以下 NuGet 安装命令来配置 API:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
使用 C# 以编程方式将扫描的 PDF 转换为 Word 文档
您可以通过光学识别文本将扫描的 PDF 文件转换为 Word 文档。 OCR 操作将扫描的 PDF 转换为文本,然后以 DOC 或 DOCX 格式生成 Word 文档。请按照以下步骤将扫描的 PDF 转换为 Word 文档:
- 初始化 AsposeOcr 类实例。
- 使用 DocumentRecognitionSettings 类识别 PDF 中的图像。
- 初始化 StringBuilder 类对象并保存文本。
- 使用 Document 类初始化 word 文档。
- 指定字体和段落格式。
- 将输出的 Word 文档保存为 DOCX 或 DOC 文件。
以下代码片段显示了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 Word 文档:
// 初始化 AsposeOcr 类实例
AsposeOcr api = new AsposeOcr();
// 使用 DocumentRecognitionSettings 类识别 PDF 中的图像
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 保存识别结果
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// 初始化 StringBuilder 类对象
StringBuilder text = new StringBuilder();
// 将结果另存为文本
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// 使用 Document 类初始化 word 文档。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// 指定字体格式
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// 指定段落格式
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// 保存输出 Word 文档。
doc.Save("Scanned_PDF_to_Word.docx");
获得免费评估许可证
您可以通过申请 免费临时许可证 来全面测试 API。
结论
在本文中,您学习了如何使用 C# 以编程方式将扫描的 PDF 文件转换为 DOCX 或 DOC 格式的 Word 文档。此外,您可以通过访问 文档 探索其他几个与 OCR 相关的功能。如有任何疑问,请随时通过 论坛 与我们联系。
也可以看看
提示:如果您需要从 PowerPoint 演示文稿中获取 Word 文档,您可以使用 Aspose Presentation to Word Document 转换器。