光學字符識別 (OCR) 技術在數字化各種來源(包括 PDF 文檔)的打印、掃描或手寫文本方面發揮著關鍵作用。在這篇博文中,我們將學習如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。
本文涵蓋以下主題:
PDF 到 TXT - Python OCR API
我們將使用 Aspose.OCR for Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。 Aspose.OCR for Python 是一個功能強大的光學字符識別 (OCR) API,可以識別掃描圖像、智能手機照片、屏幕截圖和圖像區域中的文本。 API 以最流行的文檔和數據交換格式(包括 PDF、XML、JSON 和純文本)返回已識別的文本結果。
除了將圖像轉換為文本之外,Aspose.OCR for Python 還可以基於掃描創建可搜索的 PDF。該 API 還可以自動更正已識別文本中的拼寫錯誤,使其成為各種應用程序的理想選擇。
請下載軟件包或在控制台中使用以下 pip 命令從 PyPI 安裝 API:
pip install aspose-ocr-python-net
Python OCR PDF - 在 Python 中從 PDF 中提取文本
我們可以按照以下步驟對PDF文檔進行OCR並提取識別出的文本:
- 創建 AsposeOcr 類的實例。
- 初始化 DocumentRecognitionSettings 類的對象。
- 將 PDF 文件添加到識別批次中。
- 之後,調用 recognize() 方法。
- 最後,使用 RecognitionResult 類顯示識別的文本。
以下示例代碼演示瞭如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。
# 此代碼示例演示如何使用 Python 從掃描的 PDF 文檔中識別和提取文本。
import aspose.ocr as ocr
# 初始化 OCR 引擎
api = ocr.AsposeOcr()
# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)
# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)
# 識別文字
result = api.recognize(files , settings)
# 打印識別結果
print(result[0].recognition_text)
Python OCR PDF - 在 Python 中將掃描的 PDF 保存為文本
我們可以按照以下步驟對PDF文檔進行OCR並保存識別的文本:
- 創建 AsposeOcr 類的實例。
- 初始化 DocumentRecognitionSettings 類的對象。
- 將 PDF 文件添加到識別批次中。
- 之後,調用 recognize() 方法。
- 最後,使用 savemultipagedocument() 方法保存文本。它將輸出文件路徑、SaveFormat 和 RecognitionResult 對像作為參數。
以下示例代碼展示瞭如何 OCR PDF 文檔並在 Python 中保存識別的文本。
# 此代碼示例演示如何使用 Python 保存識別和提取文本。
import aspose.ocr as ocr
# 初始化 OCR 引擎
api = ocr.AsposeOcr()
# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)
# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)
# 識別文字
result = api.recognize(files , settings)
# 打印識別結果
print(result[0].recognition_text)
# 保存提取的文本
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
獲取免費評估許可證
您可以獲得免費的臨時許可證來試用該庫,而不受評估限制。
Python OCR PDF - 免費資源
您可以進一步探索以下資源來學習Python OCR API:
結論
在本文中,我們學習瞭如何使用 Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。使用 OCR 從 PDF 中提取文本的能力改變了許多行業的遊戲規則,從歸檔和法律文檔到數據分析和內容數字化。通過利用 Aspose.OCR for Python,開發人員和愛好者可以將 OCR 功能無縫集成到他們的 Python 項目中。如有任何疑問,請隨時通過我們的免費支持論壇與我們聯繫。