OCR PDF a extrahování textu z PDF v Pythonu

Technologie optického rozpoznávání znaků (OCR) hraje klíčovou roli při digitalizaci tištěného, naskenovaného nebo ručně psaného textu z různých zdrojů, včetně dokumentů PDF. V tomto příspěvku na blogu se naučíme, jak OCR PDF dokumenty a extrahovat text z PDF v Pythonu.

Tento článek se zabývá následujícími tématy:

  1. PDF do TXT Python OCR API
  2. OCR PDF a extrahování textu z PDF
  3. Uložit naskenované PDF do textu
  4. Bezplatné výukové zdroje

PDF do TXT - Python OCR API

K provádění OCR na dokumentech PDF a extrahování textu z PDF použijeme Aspose.OCR for Python. Aspose.OCR for Python je výkonné rozhraní API pro optické rozpoznávání znaků (OCR), které dokáže rozpoznat text z naskenovaných obrázků, fotografií smartphonu, snímků obrazovky a oblastí obrázků. Rozhraní API vrací rozpoznané textové výsledky v nejoblíbenějších formátech pro výměnu dokumentů a dat, včetně PDF, XML, JSON a prostého textu.

Kromě převodu obrázků na text může Aspose.OCR for Python také vytvářet prohledávatelné PDF na základě skenů. Rozhraní API může také automaticky opravovat pravopisné chyby v rozpoznaných textech, takže je ideální pro různé aplikace.

Prosím stáhněte si balíček nebo nainstalujte API z PyPI pomocí následujícího příkazu pip v konzole:

pip install aspose-ocr-python-net

Python OCR PDF - Extrahujte text z PDF v Pythonu

Můžeme provést OCR na dokumentech PDF a extrahovat rozpoznaný text podle následujících kroků:

  1. Vytvořte instanci třídy AsposeOcr.
  2. Inicializujte objekt třídy DocumentRecognitionSettings.
  3. Přidejte soubor PDF do dávky rozpoznávání.
  4. Poté zavolejte metodu rozpoznat().
  5. Nakonec zobrazte identifikovaný text pomocí třídy RecognitionResult.

Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a extrahování textu z PDF v Pythonu.

# Tento příklad kódu ukazuje, jak rozpoznat a extrahovat text z naskenovaného dokumentu PDF v Pythonu.
import aspose.ocr as ocr

# Inicializujte OCR engine
api = ocr.AsposeOcr()

# Inicializujte RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Přidejte soubor do rozpoznávací dávky
files = ocr.OcrInput(ocr.InputType.PDF)

# Otevřete naskenovaný soubor PDF a nastavte číslo stránky a celkový počet stránek
files.add("C:\\Files\\sample.pdf", 0, 1)

# Rozpoznat text
result = api.recognize(files , settings)

# Výsledek rozpoznání tisku
print(result[0].recognition_text)

Python OCR PDF – Uložení naskenovaného PDF do textu v Pythonu

Můžeme provést OCR na dokumentech PDF a uložit rozpoznaný text podle následujících kroků:

  1. Vytvořte instanci třídy AsposeOcr.
  2. Inicializujte objekt třídy DocumentRecognitionSettings.
  3. Přidejte soubor PDF do dávky rozpoznávání.
  4. Poté zavolejte metodu rozpoznat().
  5. Nakonec text uložte pomocí metody savemultipagedocument(). Jako argumenty bere cestu k výstupnímu souboru, objekt SaveFormat a RecognitionResult.

Následující ukázkový kód ukazuje, jak OCR dokumenty PDF a jak uložit rozpoznaný text v Pythonu.

# Tento příklad kódu ukazuje, jak uložit rozpoznávaný a extrahovaný text pomocí Pythonu.
import aspose.ocr as ocr

# Inicializujte OCR engine
api = ocr.AsposeOcr()

# Inicializujte RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Přidejte soubor do rozpoznávací dávky
files = ocr.OcrInput(ocr.InputType.PDF)

# Otevřete naskenovaný PDF a nastavte číslo stránky a celkový počet stránek
files.add("C:\\Files\\sample.pdf", 0, 1)

# Rozpoznat text
result = api.recognize(files , settings)

# Výsledek rozpoznání tisku
print(result[0].recognition_text)

# Uložte extrahovaný text
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Získejte bezplatnou zkušební licenci

Můžete získat bezplatnou dočasnou licenci a vyzkoušet knihovnu bez omezení hodnocení.

Python OCR PDF – bezplatné zdroje

Chcete-li se naučit Python OCR API, můžete dále prozkoumat následující zdroje:

Závěr

V tomto článku jsme se naučili, jak provádět OCR na dokumentech PDF a extrahovat text z PDF v Pythonu. Schopnost extrahovat text z PDF pomocí OCR je zásadní změnou v mnoha odvětvích, od archivace a právní dokumentace po analýzu dat a digitalizaci obsahu. Díky využití Aspose.OCR for Python mohou vývojáři a nadšenci bezproblémově integrovat možnosti OCR do svých projektů Python. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na našem bezplatném fóru podpory.

Viz také