在 Python 中 OCR PDF 和從 PDF 中提取文本

光學字符識別 (OCR) 技術在數字化各種來源(包括 PDF 文檔)的打印、掃描或手寫文本方面發揮著關鍵作用。在這篇博文中，我們將學習如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。

本文涵蓋以下主題：

PDF 轉 TXT Python OCR API
OCR PDF 和從 PDF 中提取文本
將掃描的 PDF 保存為文本
免費學習資源

PDF 到 TXT - Python OCR API

我們將使用 Aspose.OCR for Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。 Aspose.OCR for Python 是一個功能強大的光學字符識別 (OCR) API，可以識別掃描圖像、智能手機照片、屏幕截圖和圖像區域中的文本。 API 以最流行的文檔和數據交換格式(包括 PDF、XML、JSON 和純文本)返回已識別的文本結果。

除了將圖像轉換為文本之外，Aspose.OCR for Python 還可以基於掃描創建可搜索的 PDF。該 API 還可以自動更正已識別文本中的拼寫錯誤，使其成為各種應用程序的理想選擇。

請下載軟件包或在控制台中使用以下 pip 命令從 PyPI 安裝 API：

pip install aspose-ocr-python-net

Python OCR PDF - 在 Python 中從 PDF 中提取文本

我們可以按照以下步驟對PDF文檔進行OCR並提取識別出的文本：

創建 AsposeOcr 類的實例。
初始化 DocumentRecognitionSettings 類的對象。
將 PDF 文件添加到識別批次中。
之後，調用 recognize() 方法。
最後，使用 RecognitionResult 類顯示識別的文本。

以下示例代碼演示瞭如何使用 Python 對 PDF 文檔進行 OCR 並從 PDF 中提取文本。

# 此代碼示例演示如何使用 Python 從掃描的 PDF 文檔中識別和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)

# 識別文字
result = api.recognize(files , settings)

# 打印識別結果
print(result[0].recognition_text)

Python OCR PDF - 在 Python 中將掃描的 PDF 保存為文本

我們可以按照以下步驟對PDF文檔進行OCR並保存識別的文本：

創建 AsposeOcr 類的實例。
初始化 DocumentRecognitionSettings 類的對象。
將 PDF 文件添加到識別批次中。
之後，調用 recognize() 方法。
最後，使用 savemultipagedocument() 方法保存文本。它將輸出文件路徑、SaveFormat 和 RecognitionResult 對像作為參數。

以下示例代碼展示瞭如何 OCR PDF 文檔並在 Python 中保存識別的文本。

# 此代碼示例演示如何使用 Python 保存識別和提取文本。
import aspose.ocr as ocr

# 初始化 OCR 引擎
api = ocr.AsposeOcr()

# 初始化識別設置
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 將文件添加到識別批次
files = ocr.OcrInput(ocr.InputType.PDF)

# 訪問掃描的 PDF 並設置頁碼和總頁數
files.add("C:\\Files\\sample.pdf", 0, 1)

# 識別文字
result = api.recognize(files , settings)

# 打印識別結果
print(result[0].recognition_text)

# 保存提取的文本
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

獲取免費評估許可證

您可以獲得免費的臨時許可證來試用該庫，而不受評估限制。

Python OCR PDF - 免費資源

您可以進一步探索以下資源來學習Python OCR API：

結論

在本文中，我們學習瞭如何使用 Python 對 PDF 文檔執行 OCR 並從 PDF 中提取文本。使用 OCR 從 PDF 中提取文本的能力改變了許多行業的遊戲規則，從歸檔和法律文檔到數據分析和內容數字化。通過利用 Aspose.OCR for Python，開發人員和愛好者可以將 OCR 功能無縫集成到他們的 Python 項目中。如有任何疑問，請隨時通過我們的免費支持論壇與我們聯繫。

PDF 到 TXT - Python OCR API#

Python OCR PDF - 在 Python 中從 PDF 中提取文本#

Python OCR PDF - 在 Python 中將掃描的 PDF 保存為文本#

獲取免費評估許可證#

Python OCR PDF - 免費資源#

結論#

也可以看看#

PDF 到 TXT - Python OCR API

Python OCR PDF - 在 Python 中從 PDF 中提取文本

Python OCR PDF - 在 Python 中將掃描的 PDF 保存為文本

獲取免費評估許可證

Python OCR PDF - 免費資源

結論

也可以看看