Technologie optického rozpoznávání znaků (OCR) hraje klíčovou roli při digitalizaci tištěného, naskenovaného nebo ručně psaného textu z různých zdrojů, včetně dokumentů PDF. V tomto příspěvku na blogu se naučíme, jak OCR PDF dokumenty a extrahovat text z PDF v Pythonu.
Tento článek se zabývá následujícími tématy:
- PDF do TXT Python OCR API
- OCR PDF a extrahování textu z PDF
- Uložit naskenované PDF do textu
- Bezplatné výukové zdroje
PDF do TXT - Python OCR API
K provádění OCR na dokumentech PDF a extrahování textu z PDF použijeme Aspose.OCR for Python. Aspose.OCR for Python je výkonné rozhraní API pro optické rozpoznávání znaků (OCR), které dokáže rozpoznat text z naskenovaných obrázků, fotografií smartphonu, snímků obrazovky a oblastí obrázků. Rozhraní API vrací rozpoznané textové výsledky v nejoblíbenějších formátech pro výměnu dokumentů a dat, včetně PDF, XML, JSON a prostého textu.
Kromě převodu obrázků na text může Aspose.OCR for Python také vytvářet prohledávatelné PDF na základě skenů. Rozhraní API může také automaticky opravovat pravopisné chyby v rozpoznaných textech, takže je ideální pro různé aplikace.
Prosím stáhněte si balíček nebo nainstalujte API z PyPI pomocí následujícího příkazu pip v konzole:
pip install aspose-ocr-python-net
Python OCR PDF - Extrahujte text z PDF v Pythonu
Můžeme provést OCR na dokumentech PDF a extrahovat rozpoznaný text podle následujících kroků:
- Vytvořte instanci třídy AsposeOcr.
- Inicializujte objekt třídy DocumentRecognitionSettings.
- Přidejte soubor PDF do dávky rozpoznávání.
- Poté zavolejte metodu rozpoznat().
- Nakonec zobrazte identifikovaný text pomocí třídy RecognitionResult.
Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a extrahování textu z PDF v Pythonu.
# Tento příklad kódu ukazuje, jak rozpoznat a extrahovat text z naskenovaného dokumentu PDF v Pythonu.
import aspose.ocr as ocr
# Inicializujte OCR engine
api = ocr.AsposeOcr()
# Inicializujte RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Přidejte soubor do rozpoznávací dávky
files = ocr.OcrInput(ocr.InputType.PDF)
# Otevřete naskenovaný soubor PDF a nastavte číslo stránky a celkový počet stránek
files.add("C:\\Files\\sample.pdf", 0, 1)
# Rozpoznat text
result = api.recognize(files , settings)
# Výsledek rozpoznání tisku
print(result[0].recognition_text)
Python OCR PDF – Uložení naskenovaného PDF do textu v Pythonu
Můžeme provést OCR na dokumentech PDF a uložit rozpoznaný text podle následujících kroků:
- Vytvořte instanci třídy AsposeOcr.
- Inicializujte objekt třídy DocumentRecognitionSettings.
- Přidejte soubor PDF do dávky rozpoznávání.
- Poté zavolejte metodu rozpoznat().
- Nakonec text uložte pomocí metody savemultipagedocument(). Jako argumenty bere cestu k výstupnímu souboru, objekt SaveFormat a RecognitionResult.
Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a jak uložit rozpoznaný text v Pythonu.
# Tento příklad kódu ukazuje, jak uložit rozpoznávaný a extrahovaný text pomocí Pythonu.
import aspose.ocr as ocr
# Inicializujte OCR engine
api = ocr.AsposeOcr()
# Inicializujte RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Přidejte soubor do rozpoznávací dávky
files = ocr.OcrInput(ocr.InputType.PDF)
# Otevřete naskenovaný PDF a nastavte číslo stránky a celkový počet stránek
files.add("C:\\Files\\sample.pdf", 0, 1)
# Rozpoznat text
result = api.recognize(files , settings)
# Výsledek rozpoznání tisku
print(result[0].recognition_text)
# Uložte extrahovaný text
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
Získejte bezplatnou zkušební licenci
Můžete získat bezplatnou dočasnou licenci a vyzkoušet knihovnu bez omezení hodnocení.
Python OCR PDF – bezplatné zdroje
Chcete-li se naučit Python OCR API, můžete dále prozkoumat následující zdroje:
Závěr
V tomto článku jsme se naučili, jak provádět OCR na dokumentech PDF a extrahovat text z PDF v Pythonu. Schopnost extrahovat text z PDF pomocí OCR je zásadní změnou v mnoha odvětvích, od archivace a právní dokumentace po analýzu dat a digitalizaci obsahu. Díky využití Aspose.OCR for Python mohou vývojáři a nadšenci bezproblémově integrovat možnosti OCR do svých projektů Python. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na našem bezplatném fóru podpory.