在 Python 中 OCR PDF 和從 PDF 中提取文本

光學字符識別 (OCR) 技術在數字化各種來源(包括 PDF 文檔)的打印、掃描或手寫文本方面發揮著關鍵作用。在這篇博文中,我們將學習如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。

本文涵蓋以下主題:

  1. PDF 轉 TXT Python OCR API
  2. OCR PDF 和從 PDF 中提取文本
  3. 將掃描的 PDF 保存為文本
  4. 免費學習資源

PDF 到 TXT - Python OCR API

我們將使用 Aspose.OCR for Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。 Aspose.OCR for Python 是一個功能強大的光學字符識別 (OCR) API,可以識別掃描圖像、智能手機照片、屏幕截圖和圖像區域中的文本。 API 以最流行的文檔和數據交換格式(包括 PDF、XML、JSON 和純文本)返回已識別的文本結果。

除了將圖像轉換為文本之外,Aspose.OCR for Python 還可以基於掃描創建可搜索的 PDF。該 API 還可以自動更正已識別文本中的拼寫錯誤,使其成為各種應用程序的理想選擇。

下載軟件包或在控制台中使用以下 pip 命令從 PyPI 安裝 API:

pip install aspose-ocr-python-net

Python OCR PDF - 在 Python 中從 PDF 中提取文本

我們可以按照以下步驟對PDF文檔進行OCR並提取識別出的文本:

  1. 創建 AsposeOcr 類的實例。
  2. 初始化 DocumentRecognitionSettings 類的對象。
  3. 將 PDF 文件添加到識別批次中。
  4. 之後,調用 recognize() 方法。
  5. 最後,使用 RecognitionResult 類顯示識別的文本。

以下示例代碼演示瞭如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。

# 此代碼示例演示如何使用 Python 從掃描的 PDF 文檔中識別和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)

# 識別文字
result = api.recognize(files , settings)

# 打印識別結果
print(result[0].recognition_text)

Python OCR PDF - 在 Python 中將掃描的 PDF 保存為文本

我們可以按照以下步驟對PDF文檔進行OCR並保存識別的文本:

  1. 創建 AsposeOcr 類的實例。
  2. 初始化 DocumentRecognitionSettings 類的對象。
  3. 將 PDF 文件添加到識別批次中。
  4. 之後,調用 recognize() 方法。
  5. 最後,使用 savemultipagedocument() 方法保存文本。它將輸出文件路徑、SaveFormat 和 RecognitionResult 對像作為參數。

以下示例代碼展示瞭如何 OCR PDF 文檔並在 Python 中保存識別的文本。

# 此代碼示例演示如何使用 Python 保存識別和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)

# 識別文字
result = api.recognize(files , settings)

# 打印識別結果
print(result[0].recognition_text)

# 保存提取的文本
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

獲取免費評估許可證

您可以獲得免費的臨時許可證來試用該庫,而不受評估限制。

Python OCR PDF - 免費資源

您可以進一步探索以下資源來學習Python OCR API:

結論

在本文中,我們學習瞭如何使用 Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。使用 OCR 從 PDF 中提取文本的能力改變了許多行業的遊戲規則,從歸檔和法律文檔到數據分析和內容數字化。通過利用 Aspose.OCR for Python,開發人員和愛好者可以將 OCR 功能無縫集成到他們的 Python 項目中。如有任何疑問,請隨時通過我們的免費支持論壇與我們聯繫。

也可以看看