使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word

將掃描的 PDF 轉換為 Word 文檔具有多種優勢，例如編輯文檔中的文本，可以輕鬆進行更改或更新。它還支持文本搜索，這對於大型文檔或進行研究時非常有價值。此外，您還可以在 Python 中執行 OCR 時執行拼寫檢查以糾正任何拼寫錯誤或拼寫錯誤的單詞。因此，本文介紹瞭如何使用 Aspose.OCR for Python via .NET 庫在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word 文檔。

使用 OCR 將 PDF 轉換為 Word – Python API 安裝
使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word
使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word

使用 OCR 將 PDF 轉換為 Word – Python API 安裝

在我們深入研究文本識別之前，讓我們確保已經設置了在 Python 中運行 OCR 所需的環境。確保您的系統上安裝了Python，最好是3.x或更高版本，以及可靠的代碼編輯器或集成開發環境(IDE)，例如Visual Studio Code或IDLE等。然後您需要配置Aspose.OCR通過 .NET 使用 Python，同時使用以下安裝命令從 New Releases 部分或 PyPi 訪問它：

pip install aspose-ocr-python-net

使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word

您可以按照以下步驟使用 OCR 將掃描的 PDF 轉換為 Word：

使用 AsposeOcr 類初始化 API。
為識別設置不同的設置。
使用 OCR 識別文本並保存輸出 DOCX Word 文件。

以下代碼片段演示瞭如何在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word：

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word

OCR 引擎有時可能會產生不准確的結果，尤其是在處理複雜的佈局、手寫或低質量掃描時。在這種情況下，拼寫糾正對於提高轉換文本的準確性起著至關重要的作用。本節特別討論使用 OCR 和 Python 中的拼寫檢查功能將 PDF 轉換為 Word。您需要按照以下步驟來滿足這些要求：

初始化 AsposeOcr 類的實例。
使用 RecognitionSettings 類設置不同的屬性。
使用 OCR 識別 PDF 並對提取的字符串進行拼寫檢查。
以 DOCX 格式導出輸出 Word 文檔。

下面的示例代碼說明瞭如何在 Python 中使用 OCR 將 PDF 轉換為 Word 文檔：

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

獲取免費評估許可證

您可以獲得免費臨時許可證以避免任何評估限制和水印。

加起來

在這篇博文中，我們探討瞭如何使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word 文檔。我們討論了 OCR 的重要性及其優點，提供了設置環境、使用不同方法從 PDF 文檔中提取文本並指定多個設置並將其保存到 Word 文檔的分步指南。本指南使您能夠使用 Python 和 OCR 自動將掃描的 PDF 轉換為可編輯的 Word 文檔，從而開啟數據提取和操作的可能性世界。如果您需要討論任何問題，請隨時在免費支持論壇給我們寫信。

使用 OCR 將 PDF 轉換為 Word – Python API 安裝#

使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word#

使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word#

獲取免費評估許可證#

加起來#

也可以看看#

使用 OCR 將 PDF 轉換為 Word – Python API 安裝

使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word

使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word

獲取免費評估許可證

加起來

也可以看看