掃描的 pdf 到文本 csharp

掃描的 PDF 文件基本上是由掃描儀或相機捕獲的一個或多個平面圖像。您不能複制、粘貼或處理此類文件中的信息。本文介紹如何在 C# 中將掃描的 PDF 轉換為文本。

掃描的 PDF 到文本轉換 – C# API 安裝

Aspose.OCR for .NET API 用於執行 OCR 操作。它可以從圖像或掃描的 PDF 文檔中光學識別字符。請通過從 New Releases 部分下載 DLL 文件或使用以下 NuGet 安裝命令來配置 API。

PM> Install-Package Aspose.OCR

在 C# 中將掃描的 PDF 轉換為文本字符串

您可以通過對其執行 OCR 操作將掃描的 PDF 文件轉換為文本字符串。您需要按照以下步驟打印掃描的 PDF 文檔中的文本:

  1. 指定用於識別掃描的 PDF 文件的設置。
  2. 初始化 AsposeOcr 類實例。
  3. 初始化 RecognitionResult 類對象。
  4. 從掃描的 PDF 中識別文本後打印文本。

以下代碼片段顯示瞭如何在 C# 中識別掃描 PDF 中的文本:

// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();

// 指定用於識別掃描的 PDF 文件的設置
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 初始化 RecognitionResult 類對象
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// 從掃描的 PDF 中識別文本後打印文本
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

在 C# 中以編程方式將掃描的 PDF 轉換為 TXT 文件

您可以按照以下步驟將掃描的 PDF 文件轉換為 TXT 文件:

  1. 實例化 AsposeOcr 類對象。
  2. 創建 DocumentRecognitionSettings 類對象。
  3. 保存識別結果並初始化StringBuilder類實例。
  4. 將結果保存在 TXT 文件中。

下面的代碼片段解釋瞭如何在 C# 中以編程方式將掃描的 PDF 文件轉換為 TXT 文件:

// 初始化 AsposeOcr 類實例
AsposeOcr api = new AsposeOcr();

// 識別 PDF 中的圖像           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 保存識別結果
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// 初始化 StringBuilder 類對象
StringBuilder builder = new StringBuilder();

// 將結果保存在 TXT 文件中
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

獲得免費評估許可證

您可以申請 免費評估許可證 以全面測試 API。

結論

在本文中,您了解瞭如何使用 C# 以編程方式將掃描的 PDF 轉換為文本字符串或文本文件。此外,您可以通過訪問 文檔 檢查 API 的其他幾個特性。如有任何疑慮,請隨時通過 論壇 與我們聯繫。

也可以看看