掃描的 PDF 文件基本上是由掃描儀或相機捕獲的一個或多個平面圖像。您不能複制、粘貼或處理此類文件中的信息。本文介紹如何在 C# 中將掃描的 PDF 轉換為文本。
掃描的 PDF 到文本轉換 – C# API 安裝
Aspose.OCR for .NET API 用於執行 OCR 操作。它可以從圖像或掃描的 PDF 文檔中光學識別字符。請通過從 New Releases 部分下載 DLL 文件或使用以下 NuGet 安裝命令來配置 API。
PM> Install-Package Aspose.OCR
在 C# 中將掃描的 PDF 轉換為文本字符串
您可以通過對其執行 OCR 操作將掃描的 PDF 文件轉換為文本字符串。您需要按照以下步驟打印掃描的 PDF 文檔中的文本:
- 指定用於識別掃描的 PDF 文件的設置。
- 初始化 AsposeOcr 類實例。
- 初始化 RecognitionResult 類對象。
- 從掃描的 PDF 中識別文本後打印文本。
以下代碼片段顯示瞭如何在 C# 中識別掃描 PDF 中的文本:
// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();
// 指定用於識別掃描的 PDF 文件的設置
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 初始化 RecognitionResult 類對象
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);
// 從掃描的 PDF 中識別文本後打印文本
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}
在 C# 中以編程方式將掃描的 PDF 轉換為 TXT 文件
您可以按照以下步驟將掃描的 PDF 文件轉換為 TXT 文件:
- 實例化 AsposeOcr 類對象。
- 創建 DocumentRecognitionSettings 類對象。
- 保存識別結果並初始化StringBuilder類實例。
- 將結果保存在 TXT 文件中。
下面的代碼片段解釋瞭如何在 C# 中以編程方式將掃描的 PDF 文件轉換為 TXT 文件:
// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();
// 識別 PDF 中的圖像
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 保存識別結果
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);
// 初始化 StringBuilder 類對象
StringBuilder builder = new StringBuilder();
// 將結果保存在 TXT 文件中
foreach (RecognitionResult page in result)
{
builder.Append(page.RecognitionText);
}
System.IO.File.WriteAllText("Text.txt", builder.ToString());
獲得免費評估許可證
您可以申請 免費評估許可證 以全面測試 API。
結論
在本文中,您了解瞭如何使用 C# 以編程方式將掃描的 PDF 轉換為文本字符串或文本文件。此外,您可以通過訪問 文檔 檢查 API 的其他幾個特性。如有任何疑慮,請隨時通過 論壇 與我們聯繫。