OCR PDF Python

由於缺乏可搜索或可編輯的文本,掃描的 PDF 文檔通常難以使用。然而,借助光學字符識別 (OCR) 技術的強大功能,從掃描的 PDF 中提取文本並將其轉換為可搜索或可編輯的格式已成為現實。在這篇博文中,您將學習如何在 Python 中使用 OCR 執行 PDF 文本識別。我們還將探索如何從掃描的 PDF 文件中提取文本,將其轉換為可搜索或可編輯的 PDF,並使用 Aspose.OCR for Python via .NET 庫釋放 Python OCR 功能的潛力。

使用 OCR 識別掃描 PDF 中的文本 – Python API 安裝

光學字符識別 (OCR) 是一種將圖像或掃描文檔轉換為機器可讀文本的技術。通過分析圖像中字符的形狀和圖案,OCR 算法識別和識別文本,從而可以提取和處理其中包含的信息。在開始之前,您需要通過 .NET 從 New Releases 頁面下載安裝 Aspose.OCR for Python,或者通過運行以下安裝命令從 PyPi 配置它:

pip install aspose-ocr-python-net

使用 Python 中的 OCR 識別 PDF 中的文本

您可以使用 Python 中的 OCR 識別或提取 PDF 中的文本。它將有效地從掃描的 PDF 文檔中提取文本,以下步驟概述了在 Python 中使用 OCR 識別 PDF 中的文本的簡單過程:

  1. 實例化 AsposeOcr 類的對象。
  2. 加載掃描的 PDF 文件。
  3. 使用 OCR 識別文本並將輸出打印到控制台。

下面的示例代碼展示瞭如何使用 Python 中的 OCR 識別 PDF 中的文本:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

使用 Python 中的 OCR 將掃描的 PDF 轉換為可搜索或可編輯的 PDF

掃描的 PDF 文件包含無法搜索文本的圖像,因此您需要將其轉換為可搜索的 PDF 文檔,以使文檔可供機器讀取並進行相應的進一步處理。請按照以下步驟將其轉換為Python中可搜索或可編輯的PDF文檔:

  1. 創建 AsposeOcr 類的對象。
  2. 初始化 [RecognitionSettings][5] 類實例並設置所需的屬性。
  3. 加載 PDF 文件並設置 OCR 識別的頁面範圍。
  4. 保存輸出的可搜索 PDF 文件。

以下示例代碼展示瞭如何使用 Python 中的 OCR 將掃描的 PDF 轉換為可搜索的 PDF 文檔:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

值得注意的是,您可以對 PDF 文檔中的任何範圍的頁面進行 OCR。例如,僅在頁面索引從零開始且最後一個參數是要使用 API 處理的頁面數的情況下識別特定頁面中的文本。此外,您可以設置不同的識別設置來對源文件進行預處理,例如消除噪音、設置對比度、檢查輸入頁面的傾斜度等,以增強 OCR 對文本的精確識別。

獲取免費評估許可證

您可以請求免費臨時許可證來評估 API,沒有任何評估限制。

加起來

借助 OCR 技術和 Python 的強大功能,從掃描的 PDF 中提取文本並將其轉換為可搜索或可編輯的格式變得非常容易。這裡我們探索了Python中使用OCR進行PDF文本識別的過程。我們討論了安裝過程、從掃描的 PDF 中提取文本、OCR 實施以及將掃描的 PDF 轉換為可搜索或可編輯的格式。通過利用 OCR 功能並採用先進技術,您可以釋放掃描 PDF 的全部潛力,並使其在您的項目中更易於訪問和通用。如有任何歧義或疑問,請通過免費支持論壇與我們聯繫。

也可以看看