PDF 文件有時基於通常使用掃描儀或成像設備創建的圖像。您可以使用 OCR 將掃描的 PDF 文件轉換為可搜索的 PDF 文件,以便在文檔中編輯或更新文本。根據該場景,本文介紹瞭如何使用 C# 以編程方式通過 OCR 操作將掃描的 PDF 轉換為可搜索的 PDF。
通過 OCR 將掃描的 PDF 轉換為可搜索的 PDF – C# API 安裝
您可以使用 Aspose.OCR for .NET API 對掃描的 PDF 文件執行 OCR 操作。通過從 New Releases 部分下載 DLL 文件或使用以下 NuGet 安裝命令來簡單地配置 API:
PM> Install-Package Aspose.OCR
使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF
您可以按照以下步驟將掃描的 PDF 文件轉換為可搜索的 PDF 文檔,同時以光學方式識別文本:
- 初始化 AsposeOcr 類實例。
- 使用 RecognizePdf 方法從 PDF 中識別圖像。
- 使用 DocumentRecognitionSettings 類為 OCR 識別設置不同的屬性。
- 將 OCR 結果保存為可搜索的 PDF 文件。
下面的代碼片段解釋瞭如何使用 C# 以編程方式將掃描的 PDF 轉換為可搜索的 PDF 文檔:
// 掃描的多頁 PDF 路徑
string fullPath = "multi_page.pdf";
// 初始化 AsposeOcr 類對象
AsposeOcr api = new AsposeOcr();
// 識別 PDF 中的圖像
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
StartPage = 0,
PagesNumber = 1
});
// 將結果另存為可搜索的 PDF
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);
獲得免費評估許可證
您可以通過申請 免費臨時許可證 來評估使用 OCR 操作無限制地識別掃描 PDF 中文本的功能。
結論
在本文中,您了解瞭如何通過在 C# 中以編程方式對掃描的 PDF 文件執行 OCR 操作,將其轉換為可搜索的 PDF 文檔。此外,您可以通過訪問 文檔 查看 API 提供的其他幾個與 OCR 相關的功能。如有任何疑問,請隨時通過 論壇 與我們聯繫。