掃描的 PDF 到 Word OCR csharp

掃描的 PDF 文件包含無法選擇或編輯文本的圖像。在某些情況下,您可能需要將掃描的 PDF 轉換為 Word 文檔。在本文中,您將學習如何使用 C# 以編程方式將掃描的 PDF 轉換為 DOCXDOC 格式的 Word 文檔:

掃描的 PDF 到 Word DOCX 轉換器 – C# API 安裝

您可以使用 Aspose.OCR for .NET API 執行 OCR 操作來處理掃描的 PDF 文件,然後使用 C# 以編程方式使用 Aspose.Words for .NET API 創建 Word 文檔。您可以通過從 New Releases 下載 DLL 文件或使用以下 NuGet 安裝命令來配置 API:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

使用 C# 以編程方式將掃描的 PDF 轉換為 Word 文檔

您可以通過光學識別文本將掃描的 PDF 文件轉換為 Word 文檔。 OCR 操作將掃描的 PDF 轉換為文本,然後生成 DOC 或 DOCX 格式的 Word 文檔。請按照以下步驟將掃描的 PDF 轉換為 Word 文檔:

  1. 初始化 AsposeOcr 類實例。
  2. 使用 DocumentRecognitionSettings 類從 PDF 識別圖像。
  3. 初始化 StringBuilder 類對象並保存文本。
  4. 使用 Document 類初始化 word 文檔。
  5. 指定字體和段落格式。
  6. 將輸出 Word 文檔另存為 DOCX 或 DOC 文件。

以下代碼片段顯示瞭如何使用 C# 以編程方式將掃描的 PDF 文件轉換為 Word 文檔:

// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();

// 使用 DocumentRecognitionSettings 類從 PDF 中識別圖像    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存識別結果
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// 初始化 StringBuilder 類對象
StringBuilder text = new StringBuilder();

// 將結果另存為文本
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// 使用 Document 類初始化 word 文檔。
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 指定字體格式
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// 指定段落格式
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// 保存輸出 Word 文檔。 
doc.Save("Scanned_PDF_to_Word.docx");

獲得免費評估許可證

您可以通過申請 免費臨時許可證 來全面測試 API。

結論

在本文中,您了解瞭如何使用 C# 以編程方式將掃描的 PDF 文件轉換為 DOCX 或 DOC 格式的 Word 文檔。此外,您可以通過訪問 文檔 來探索其他幾個與 OCR 相關的功能。如有任何疑問,請隨時通過 論壇 與我們聯繫。

也可以看看

提示:如果您需要從 PowerPoint 演示文稿中獲取 Word 文檔,您可以使用 Aspose Presentation to Word Document 轉換器。