使用 C# 中的 OCR 將掃描的 PDF 轉換為可搜索的 PDF |識別文本 PDF

PDF 文件有時基於通常使用掃描儀或成像設備創建的圖像。您可以使用 OCR 將掃描的 PDF 文件轉換為可搜索的 PDF 文件，以便在文檔中編輯或更新文本。根據該場景，本文介紹瞭如何使用 C# 以編程方式通過 OCR 操作將掃描的 PDF 轉換為可搜索的 PDF。

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝
在 C# 中以編程方式將掃描的 PDF 轉換為可搜索的 PDF

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝

您可以使用 Aspose.OCR for .NET API 對掃描的 PDF 文件執行 OCR 操作。通過從 New Releases 部分下載 DLL 文件或使用以下 NuGet 安裝命令來簡單地配置 API：

PM> Install-Package Aspose.OCR

使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF

您可以按照以下步驟將掃描的 PDF 文件轉換為可搜索的 PDF 文檔，同時以光學方式識別文本：

初始化 AsposeOcr 類實例。
使用 RecognizePdf 方法從 PDF 中識別圖像。
使用 DocumentRecognitionSettings 類為 OCR 識別設置不同的屬性。
將 OCR 結果保存為可搜索的 PDF 文件。

下面的代碼片段解釋瞭如何使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF 文檔：

// 掃描的多頁 PDF 路徑
string fullPath = "multi_page.pdf";

// 初始化 AsposeOcr 類對象
AsposeOcr api = new AsposeOcr();

// 識別 PDF 中的圖像           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 將結果另存為可搜索的 PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

獲得免費評估許可證

您可以通過申請免費臨時許可證來評估使用 OCR 操作無限制地識別掃描 PDF 中文本的功能。

結論

在本文中，您了解瞭如何通過在 C# 中以編程方式對掃描的 PDF 文件執行 OCR 操作，將其轉換為可搜索的 PDF 文檔。此外，您可以通過訪問文檔查看 API 提供的其他幾個與 OCR 相關的功能。如有任何疑問，請隨時通過論壇與我們聯繫。

也可以看看

使用 C# 使用 OCR 將圖像轉換為 Word 文檔 (DOCX)

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝#

使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF#

獲得免費評估許可證#

結論#

也可以看看#

通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝

使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF

獲得免費評估許可證

結論

也可以看看