掃描的 PDF 文件包含無法選擇或編輯文本的圖像。在某些情況下,您可能需要將掃描的 PDF 轉換為 Word 文檔。在本文中,您將學習如何使用 C# 以編程方式將掃描的 PDF 轉換為 DOCX 或 DOC 格式的 Word 文檔:
掃描的 PDF 到 Word DOCX 轉換器 – C# API 安裝
您可以使用 Aspose.OCR for .NET API 執行 OCR 操作來處理掃描的 PDF 文件,然後使用 C# 以編程方式使用 Aspose.Words for .NET API 創建 Word 文檔。您可以通過從 New Releases 下載 DLL 文件或使用以下 NuGet 安裝命令來配置 API:
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
使用 C# 以編程方式將掃描的 PDF 轉換為 Word 文檔
您可以通過光學識別文本將掃描的 PDF 文件轉換為 Word 文檔。 OCR 操作將掃描的 PDF 轉換為文本,然後生成 DOC 或 DOCX 格式的 Word 文檔。請按照以下步驟將掃描的 PDF 轉換為 Word 文檔:
- 初始化 AsposeOcr 類實例。
- 使用 DocumentRecognitionSettings 類從 PDF 識別圖像。
- 初始化 StringBuilder 類對象並保存文本。
- 使用 Document 類初始化 word 文檔。
- 指定字體和段落格式。
- 將輸出 Word 文檔另存為 DOCX 或 DOC 文件。
以下代碼片段顯示瞭如何使用 C# 以編程方式將掃描的 PDF 文件轉換為 Word 文檔:
// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();
// 使用 DocumentRecognitionSettings 類從 PDF 中識別圖像
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 保存識別結果
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// 初始化 StringBuilder 類對象
StringBuilder text = new StringBuilder();
// 將結果另存為文本
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// 使用 Document 類初始化 word 文檔。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// 指定字體格式
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// 指定段落格式
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// 保存輸出 Word 文檔。
doc.Save("Scanned_PDF_to_Word.docx");
獲得免費評估許可證
您可以通過申請 免費臨時許可證 來全面測試 API。
結論
在本文中,您了解瞭如何使用 C# 以編程方式將掃描的 PDF 文件轉換為 DOCX 或 DOC 格式的 Word 文檔。此外,您可以通過訪問 文檔 來探索其他幾個與 OCR 相關的功能。如有任何疑問,請隨時通過 論壇 與我們聯繫。
也可以看看
提示:如果您需要從 PowerPoint 演示文稿中獲取 Word 文檔,您可以使用 Aspose Presentation to Word Document 轉換器。