將掃描的 PDF 轉換為 Word 文檔具有多種優勢,例如編輯文檔中的文本,可以輕鬆進行更改或更新。它還支持文本搜索,這對於大型文檔或進行研究時非常有價值。此外,您還可以在 Python 中執行 OCR 時執行拼寫檢查以糾正任何拼寫錯誤或拼寫錯誤的單詞。因此,本文介紹瞭如何使用 Aspose.OCR for Python via .NET 庫在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word 文檔。
- 使用 OCR 將 PDF 轉換為 Word – Python API 安裝
- 使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word
- 使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word
使用 OCR 將 PDF 轉換為 Word – Python API 安裝
在我們深入研究文本識別之前,讓我們確保已經設置了在 Python 中運行 OCR 所需的環境。確保您的系統上安裝了Python,最好是3.x或更高版本,以及可靠的代碼編輯器或集成開發環境(IDE),例如Visual Studio Code或IDLE等。然後您需要配置Aspose.OCR通過 .NET 使用 Python,同時使用以下安裝命令從 New Releases 部分或 PyPi 訪問它:
pip install aspose-ocr-python-net
使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word
您可以按照以下步驟使用 OCR 將掃描的 PDF 轉換為 Word:
- 使用 AsposeOcr 類初始化 API。
- 為識別設置不同的設置。
- 使用 OCR 識別文本並保存輸出 DOCX Word 文件。
以下代碼片段演示瞭如何在 Python 中使用 OCR 將掃描的 PDF 轉換為 Word:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)
result = api.recognize(input , settings)
api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)
print(result[0].recognition_text)
使用 Python 中的 OCR 和拼寫檢查將 PDF 轉換為 Word
OCR 引擎有時可能會產生不准確的結果,尤其是在處理複雜的佈局、手寫或低質量掃描時。在這種情況下,拼寫糾正對於提高轉換文本的準確性起著至關重要的作用。本節特別討論使用 OCR 和 Python 中的拼寫檢查功能將 PDF 轉換為 Word。您需要按照以下步驟來滿足這些要求:
- 初始化 AsposeOcr 類的實例。
- 使用 RecognitionSettings 類設置不同的屬性。
- 使用 OCR 識別 PDF 並對提取的字符串進行拼寫檢查。
- 以 DOCX 格式導出輸出 Word 文檔。
下面的示例代碼說明瞭如何在 Python 中使用 OCR 將 PDF 轉換為 Word 文檔:
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)
result = api.recognize(input , settings)
corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)
# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)
獲取免費評估許可證
您可以獲得免費臨時許可證以避免任何評估限制和水印。
加起來
在這篇博文中,我們探討瞭如何使用 Python 中的 OCR 將掃描的 PDF 轉換為 Word 文檔。我們討論了 OCR 的重要性及其優點,提供了設置環境、使用不同方法從 PDF 文檔中提取文本並指定多個設置並將其保存到 Word 文檔的分步指南。本指南使您能夠使用 Python 和 OCR 自動將掃描的 PDF 轉換為可編輯的 Word 文檔,從而開啟數據提取和操作的可能性世界。如果您需要討論任何問題,請隨時在 免費支持論壇 給我們寫信。