PDF 到 Word OCR Python

將掃描的 PDF 轉換為 Word 文檔具有多種優勢,例如編輯文檔中的文本,可以輕鬆進行更改或更新。它還支持文本搜索,這對於大型文檔或進行研究時非常有價值。此外,您還可以在 Python 中執行 OCR 時執行拼寫檢查以糾正任何拼寫錯誤或拼寫錯誤的單詞。因此,本文介紹瞭如何使用 Aspose.OCR for Python via .NET 庫在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word 文檔。

使用 OCR 將 PDF 轉換為 Word – Python API 安裝

在我們深入研究文本識別之前,讓我們確保已經設置了在 Python 中運行 OCR 所需的環境。確保您的系統上安裝了Python,最好是3.x或更高版本,以及可靠的代碼編輯器或集成開發環境(IDE),例如Visual Studio Code或IDLE等。然後您需要配置Aspose.OCR通過 .NET 使用 Python,同時使用以下安裝命令從 New Releases 部分或 PyPi 訪問它:

pip install aspose-ocr-python-net

使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word

您可以按照以下步驟使用 OCR 將掃描的 PDF 轉換為 Word:

  1. 使用 AsposeOcr 類初始化 API。
  2. 為識別設置不同的設置。
  3. 使用 OCR 識別文本並保存輸出 DOCX Word 文件。

以下代碼片段演示瞭如何在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word

OCR 引擎有時可能會產生不准確的結果,尤其是在處理複雜的佈局、手寫或低質量掃描時。在這種情況下,拼寫糾正對於提高轉換文本的準確性起著至關重要的作用。本節特別討論使用 OCR 和 Python 中的拼寫檢查功能將 PDF 轉換為 Word。您需要按照以下步驟來滿足這些要求:

  1. 初始化 AsposeOcr 類的實例。
  2. 使用 RecognitionSettings 類設置不同的屬性。
  3. 使用 OCR 識別 PDF 並對提取的字符串進行拼寫檢查。
  4. 以 DOCX 格式導出輸出 Word 文檔。

下面的示例代碼說明瞭如何在 Python 中使用 OCR 將 PDF 轉換為 Word 文檔:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

獲取免費評估許可證

您可以獲得免費臨時許可證以避免任何評估限制和水印。

加起來

在這篇博文中,我們探討瞭如何使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word 文檔。我們討論了 OCR 的重要性及其優點,提供了設置環境、使用不同方法從 PDF 文檔中提取文本並指定多個設置並將其保存到 Word 文檔的分步指南。本指南使您能夠使用 Python 和 OCR 自動將掃描的 PDF 轉換為可編輯的 Word 文檔,從而開啟數據提取和操作的可能性世界。如果您需要討論任何問題,請隨時在 免費支持論壇 給我們寫信。

也可以看看