PDF do Wordu OCR Python

Převod naskenovaných souborů PDF do dokumentů aplikace Word nabízí několik výhod, jako je úprava textu v dokumentu, což usnadňuje provádění změn nebo aktualizací. Umožňuje také vyhledávání v textu, což je neocenitelné u velkých dokumentů nebo při provádění rešerší. Kromě toho můžete také provádět kontrolu pravopisu pro opravu jakýchkoli překlepů nebo chybně napsaných slov při provádění OCR v Pythonu. V souladu s tím tento článek vysvětluje, jak převést naskenované PDF do dokumentu Word s OCR v Pythonu pomocí knihovny Aspose.OCR for Python via .NET.

PDF do Wordu s OCR – Instalace Python API

Než se vrhneme na rozpoznávání textu, ujistíme se, že máme nastavené potřebné prostředí pro spuštění OCR v Pythonu. Ujistěte se, že máte na svém systému nainstalovaný Python, nejlépe verze 3.x nebo novější, spolu se spolehlivým editorem kódu nebo integrovaným vývojovým prostředím (IDE), jako je Visual Studio Code nebo IDLE atd. Poté musíte nakonfigurovat Aspose.OCR pro Python přes .NET při přístupu ze sekce New Releases nebo z PyPi pomocí následujícího instalačního příkazu:

pip install aspose-ocr-python-net

Převeďte naskenované PDF do Wordu pomocí OCR v Pythonu

Naskenovaný PDF můžete převést do Wordu pomocí OCR podle následujících kroků:

  1. Inicializujte rozhraní API pomocí třídy AsposeOcr.
  2. Nastavte různá nastavení pro rozpoznávání.
  3. Rozpoznejte text pomocí OCR a uložte výstupní soubor DOCX Word.

Následující fragment kódu ukazuje, jak převést naskenovaný PDF do Wordu pomocí OCR v Pythonu:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF do Wordu s OCR a kontrolou pravopisu v Pythonu

Moduly OCR mohou někdy způsobit nepřesnosti, zejména při práci se složitým rozvržením, rukopisem nebo skenováním nízké kvality. V takových případech hraje oprava pravopisu zásadní roli při zlepšování přesnosti převedeného textu. Tato část se zabývá zejména převodem PDF do Wordu s OCR a funkcí kontroly pravopisu v Pythonu. Chcete-li splnit tyto požadavky, musíte provést následující kroky:

  1. Inicializujte instanci třídy AsposeOcr.
  2. Nastavte různé vlastnosti pomocí třídy RecognitionSettings.
  3. Rozpoznejte PDF pomocí OCR a zkontrolujte pravopis extrahovaného řetězce.
  4. Exportujte výstupní dokument aplikace Word ve formátu DOCX.

Ukázkový kód níže vysvětluje, jak převést PDF na dokument Word pomocí OCR v Pythonu:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Získejte bezplatnou zkušební licenci

Můžete získat bezplatnou dočasnou licenci, abyste se vyhnuli jakýmkoli omezením hodnocení a vodoznakům.

Shrnutí

V tomto příspěvku na blogu jsme prozkoumali, jak převést naskenované soubory PDF na dokumenty Word pomocí OCR v Pythonu. Diskutovali jsme o důležitosti OCR a jeho výhodách, poskytli jsme podrobného průvodce nastavením prostředí, extrahováním textu z dokumentu PDF různými přístupy při specifikaci několika nastavení a jeho uložením do dokumentu aplikace Word. Tato příručka vám umožňuje automatizovat převod naskenovaných PDF na upravitelné dokumenty Word pomocí Pythonu a OCR, čímž otevírá svět možností pro extrakci dat a manipulaci s nimi. V případě, že potřebujete prodiskutovat jakékoli své obavy, neváhejte nám napsat na free support forum.

Viz také