由於缺乏可搜索或可編輯的文本,掃描的 PDF 文檔通常難以使用。然而,借助光學字符識別 (OCR) 技術的強大功能,從掃描的 PDF 中提取文本並將其轉換為可搜索或可編輯的格式已成為現實。在這篇博文中,您將學習如何在 Python 中使用 OCR 執行 PDF 文本識別。我們還將探索如何從掃描的 PDF 文件中提取文本,將其轉換為可搜索或可編輯的 PDF,並使用 Aspose.OCR for Python via .NET 庫釋放 Python OCR 功能的潛力。
- 使用 OCR 識別掃描 PDF 中的文本 – Python API 安裝
- 使用 Python 中的 OCR 識別 PDF 中的文本
- 使用 Python 中的 OCR 將掃描的 PDF 轉換為可搜索或可編輯的 PDF
使用 OCR 識別掃描 PDF 中的文本 – Python API 安裝
光學字符識別 (OCR) 是一種將圖像或掃描文檔轉換為機器可讀文本的技術。通過分析圖像中字符的形狀和圖案,OCR 算法識別和識別文本,從而可以提取和處理其中包含的信息。在開始之前,您需要通過 .NET 從 New Releases 頁面下載安裝 Aspose.OCR for Python,或者通過運行以下安裝命令從 PyPi 配置它:
pip install aspose-ocr-python-net
使用 Python 中的 OCR 識別 PDF 中的文本
您可以使用 Python 中的 OCR 識別或提取 PDF 中的文本。它將有效地從掃描的 PDF 文檔中提取文本,以下步驟概述了在 Python 中使用 OCR 識別 PDF 中的文本的簡單過程:
- 實例化 AsposeOcr 類的對象。
- 加載掃描的 PDF 文件。
- 使用 OCR 識別文本並將輸出打印到控制台。
下面的示例代碼展示瞭如何使用 Python 中的 OCR 識別 PDF 中的文本:
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
使用 Python 中的 OCR 將掃描的 PDF 轉換為可搜索或可編輯的 PDF
掃描的 PDF 文件包含無法搜索文本的圖像,因此您需要將其轉換為可搜索的 PDF 文檔,以使文檔可供機器讀取並進行相應的進一步處理。請按照以下步驟將其轉換為Python中可搜索或可編輯的PDF文檔:
- 創建 AsposeOcr 類的對象。
- 初始化 [RecognitionSettings][5] 類實例並設置所需的屬性。
- 加載 PDF 文件並設置 OCR 識別的頁面範圍。
- 保存輸出的可搜索 PDF 文件。
以下示例代碼展示瞭如何使用 Python 中的 OCR 將掃描的 PDF 轉換為可搜索的 PDF 文檔:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
值得注意的是,您可以對 PDF 文檔中的任何範圍的頁面進行 OCR。例如,僅在頁面索引從零開始且最後一個參數是要使用 API 處理的頁面數的情況下識別特定頁面中的文本。此外,您可以設置不同的識別設置來對源文件進行預處理,例如消除噪音、設置對比度、檢查輸入頁面的傾斜度等,以增強 OCR 對文本的精確識別。
獲取免費評估許可證
您可以請求免費臨時許可證來評估 API,沒有任何評估限制。
加起來
借助 OCR 技術和 Python 的強大功能,從掃描的 PDF 中提取文本並將其轉換為可搜索或可編輯的格式變得非常容易。這裡我們探索了Python中使用OCR進行PDF文本識別的過程。我們討論了安裝過程、從掃描的 PDF 中提取文本、OCR 實施以及將掃描的 PDF 轉換為可搜索或可編輯的格式。通過利用 OCR 功能並採用先進技術,您可以釋放掃描 PDF 的全部潛力,並使其在您的項目中更易於訪問和通用。如有任何歧義或疑問,請通過免費支持論壇與我們聯繫。