掃描的 PDF 以在 C# 中使用 OCR 進行搜索

PDF 文件有時基於通常使用掃描儀或成像設備創建的圖像。您可以使用 OCR 將掃描的 PDF 文件轉換為可搜索的 PDF 文件,以便在文檔中編輯或更新文本。根據該場景,本文介紹瞭如何使用 C# 以編程方式通過 OCR 操作將掃描的 PDF 轉換為可搜索的 PDF。

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝

您可以使用 Aspose.OCR for .NET API 對掃描的 PDF 文件執行 OCR 操作。通過從 New Releases 部分下載 DLL 文件或使用以下 NuGet 安裝命令來簡單地配置 API:

PM> Install-Package Aspose.OCR

使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF

您可以按照以下步驟將掃描的 PDF 文件轉換為可搜索的 PDF 文檔,同時以光學方式識別文本:

  1. 初始化 AsposeOcr 類實例。
  2. 使用 RecognizePdf 方法從 PDF 中識別圖像。
  3. 使用 DocumentRecognitionSettings 類為 OCR 識別設置不同的屬性。
  4. 將 OCR 結果保存為可搜索的 PDF 文件。

下面的代碼片段解釋瞭如何使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF 文檔:

// 掃描的多頁 PDF 路徑
string fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 類對象
AsposeOcr api = new AsposeOcr();

// 識別 PDF 中的圖像           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 將結果另存為可搜索的 PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

獲得免費評估許可證

您可以通過申請 免費臨時許可證 來評估使用 OCR 操作無限制地識別掃描 PDF 中文本的功能。

結論

在本文中,您了解瞭如何通過在 C# 中以編程方式對掃描的 PDF 文件執行 OCR 操作,將其轉換為可搜索的 PDF 文檔。此外,您可以通過訪問 文檔 查看 API 提供的其他幾個與 OCR 相關的功能。如有任何疑問,請隨時通過 論壇 與我們聯繫。

也可以看看