OCR PDF 和在 C# 中從 PDF 中提取文本

PDF 文件是最常見的商業文件之一。在某些情況下,我們可能需要以編程方式閱讀掃描的 PDF 文檔。從掃描的 PDF 文件中提取文本的困難導致開發了一些工具,這些工具可以更輕鬆地從此類 PDF 文檔中讀取和檢索文本。根據文檔的內容,出於多種原因,從 PDF 文件中提取文本可能很有用。在本文中,我們將學習如何在 C# 中對 PDF 文檔進行 OCR 和從 PDF 中提取文本。

本文將涵蓋以下主題:

  1. OCR PDF 到文本 C# API
  2. OCR PDF 和從 PDF 中提取文本
  3. 對PDF執行OCR並保存文本
  4. OCR PDF 到 Word 文件
  5. OCR PDF 到 JSON

OCR PDF 到文本 C# API

我們將使用 Aspose.OCR for .NET API 對 PDF 文檔執行 OCR。它可以識別掃描圖像、智能手機照片、屏幕截圖和圖像區域。 API 以最流行的文檔和數據交換格式返回已識別的文本結果。除了將圖像轉換為文本外,API 還可以根據掃描件創建可搜索的 PDF。此外,它能夠自動更正已識別文本中的拼寫錯誤。

API 提供了 AsposeOcr 類,該類提供了執行 OCR 操作的各種方法。它提供了 RecognizePdf(string, DocumentRecognitionSettings) 方法來從提供的 PDF 文檔中識別文本。 API 的 DocumentRecognitionSettings 類提供 PDF 識別過程的設置。 RecognitionResult 類表示圖像識別的結果。

下載 API 的 DLL 或使用 NuGet 安裝它。

PM> Install-Package Aspose.OCR

OCR PDF 和在 C# 中從 PDF 中提取文本

我們可以按照下面給出的步驟對PDF文檔進行OCR並提取識別出的文本:

  1. 首先,創建 AsposeOcr 類的一個實例。
  2. 接下來,初始化 DocumentRecognitionSettings 類的一個對象。
  3. 然後,指定要用於 OCR 的語言。
  4. 之後,通過調用 RecognizePdf() 方法獲取 RecognitionResult。它以圖像路徑和 DocumentRecognitionSettings 對像作為參數。
  5. 最後,遍歷 RecognitionResult 列表並顯示已識別的文本。

以下示例代碼展示瞭如何在 C# 中對 PDF 文檔進行 OCR 和提取識別的文本。

// 此代碼示例演示如何對 PDF 文檔進行 OCR 識別並提取識別出的文本。
// 初始化 PCR 引擎
AsposeOcr recognitionEngine = new AsposeOcr();

// 初始化識別設置
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// 為 OCR 指定語言。默認多國語言
recognitionSettings.Language = Language.Eng;

// 識別 PDF 中的文本
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 顯示識別的文本
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF 和在 C# 中從 PDF 中提取文本

OCR PDF 和在 C# 中從 PDF 中提取文本

在 PDF 上執行 OCR 並在 C# 中保存文本

我們可以按照以下步驟對PDF文檔進行OCR並保存識別出的文字:

  1. 首先,創建 AsposeOcr 類的一個實例。
  2. 接下來,初始化 DocumentRecognitionSettings 類的一個對象。
  3. 然後,指定要用於 OCR 的語言。
  4. 之後,調用 RecognizePdf() 方法獲取 RecognitionResult。它以圖像路徑和 DocumentRecognitionSettings 對像作為參數。
  5. 最後,使用 SaveMultipageDocument() 方法保存文本。它以輸出文件路徑、SaveFormat 和 RecognitionResult 對像作為參數。

以下示例代碼展示瞭如何在 C# 中對 PDF 文檔進行 OCR 並將識別的文本保存。

// 此代碼示例演示如何對 PDF 文檔進行 OCR 識別並提取識別的文本。
// 初始化 PCR 引擎
AsposeOcr recognitionEngine = new AsposeOcr();

// 初始化識別設置
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// 為 OCR 指定語言。默認多國語言
recognitionSettings.Language = Language.Eng;

// 識別 PDF 中的文本
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 保存識別出的文字
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
在 PDF 上執行 OCR 並在 C# 中保存文本

在 PDF 上執行 OCR 並在 C# 中保存文本

OCR PDF 和在 C# 中將掃描的 PDF 轉換為 Word

我們可以按照前面提到的步驟對掃描的PDF文檔進行OCR,並將識別的文本保存在Word文檔中。然而,我們只需要在最後一步指定 SaveFormat.Docx。

以下示例代碼展示瞭如何在 C# 中對 PDF 進行 OCR 並將識別的文本另存為 Word 文檔。

// 此代碼示例演示如何對 PDF 文檔進行 OCR 並將識別的文本保存為 DOCX。
// 初始化 PCR 引擎
AsposeOcr recognitionEngine = new AsposeOcr();

// 初始化識別設置
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// 為 OCR 指定語言。默認多國語言
recognitionSettings.Language = Language.Eng;

// 識別 PDF 中的文本
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 將識別的文本保存為 DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF 和在 C# 中將掃描的 PDF 轉換為 Word

OCR PDF 和在 C# 中將掃描的 PDF 轉換為 Word

OCR PDF 和在 C# 中將 PDF 轉換為 JSON

我們可以按照前面提到的步驟對PDF文檔進行OCR,並將識別出的文本保存在JSON文件中。但是,我們只需要在最後一步指定 SaveFormat.Json。

以下示例代碼展示瞭如何在 C# 中對 PDF 進行 OCR 並將識別的文本保存為 JSON 文件。

// 此代碼示例演示如何對 PDF 文檔進行 OCR 並將識別的文本保存為 JSON。
// 初始化 PCR 引擎
AsposeOcr recognitionEngine = new AsposeOcr();

// 初始化識別設置
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// 為 OCR 指定語言。默認多國語言
recognitionSettings.Language = Language.Eng;

// 識別 PDF 中的文本
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 將識別的文本保存為 JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

獲得免費評估許可證

您可以 獲得免費的臨時許可證 來試用該庫,而沒有評估限制。

結論

在本文中,我們學習瞭如何在 C# 中對 PDF 文檔執行 OCR 以及從 PDF 中提取文本。我們還看到瞭如何將識別的文本保存為 TXTDOCXJSON 文件。此外,您可以使用 文檔 了解有關 Aspose.OCR for .NET API 的更多信息。如有任何歧義,請隨時在我們的 論壇 上與我們聯繫。

也可以看看