OCR PDF Python

S naskenovanými dokumenty PDF je často obtížné pracovat, protože v nich chybí text, který lze prohledávat nebo upravovat. S výkonem technologie optického rozpoznávání znaků (OCR) se však extrakce textu z naskenovaných PDF a jejich převod do prohledávatelných nebo upravitelných formátů stává realitou. V tomto příspěvku na blogu se dozvíte, jak provádět rozpoznávání textu PDF pomocí OCR v Pythonu. Také prozkoumáme, jak extrahovat text z naskenovaných souborů PDF, převést je do prohledávatelných nebo upravitelných PDF a uvolnit potenciál schopností Pythonu OCR pomocí knihovny Aspose.OCR for Python via .NET.

Rozpoznejte text z naskenovaného PDF pomocí OCR – instalace Python API

Optické rozpoznávání znaků (OCR) je technologie, která umožňuje převod obrázků nebo naskenovaných dokumentů na strojově čitelný text. Analýzou tvarů a vzorů znaků v obrázku algoritmy OCR identifikují a rozpoznávají text, což umožňuje extrahovat a zpracovat informace obsažené v něm. Než začnete, musíte nainstalovat Aspose.OCR pro Python přes .NET stažením ze stránky New Releases nebo jej nakonfigurovat z PyPi spuštěním instalačního příkazu níže:

pip install aspose-ocr-python-net

Rozpoznejte text z PDF pomocí OCR v Pythonu

Text z PDF můžete rozpoznat nebo extrahovat pomocí OCR v Pythonu. Efektivně extrahuje text z naskenovaného dokumentu PDF, protože níže uvedené kroky nastiňují jednoduchý proces rozpoznání textu z PDF pomocí OCR v Pythonu:

  1. Vytvořte instanci objektu třídy AsposeOcr.
  2. Načtěte naskenovaný soubor PDF.
  3. Rozpoznejte text pomocí OCR a vytiskněte výstup do konzoly.

Ukázkový kód níže ukazuje, jak rozpoznat text z PDF pomocí OCR v Pythonu:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Převeďte naskenované PDF na prohledávatelné nebo upravitelné PDF pomocí OCR v Pythonu

Naskenované soubory PDF obsahují obrázky, ve kterých nemůžete text vyhledat, takže jej musíte převést na dokument PDF s možností vyhledávání, aby byl dokument strojově čitelný a podle toho jej dále zpracovávat. Chcete-li jej převést na prohledávatelný nebo upravitelný dokument PDF v Pythonu, postupujte podle následujících kroků:

  1. Vytvořte objekt třídy AsposeOcr.
  2. Inicializujte instanci třídy [RecognitionSettings][5] a nastavte požadované vlastnosti.
  3. Načtěte soubor PDF a nastavte rozsah stránek pro rozpoznání pomocí OCR.
  4. Uložte výstupní soubor PDF s možností vyhledávání.

Následující ukázkový kód ukazuje, jak převést naskenovaný PDF na dokument PDF s možností vyhledávání pomocí OCR v Pythonu:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Zde je pozoruhodné, že můžete OCR OCR libovolného rozsahu stránek v dokumentu PDF. Například rozpoznávání textu z konkrétních stránek pouze tam, kde je index stránky založen na nule a posledním parametrem je počet stránek, které mají být zpracovány pomocí API. Kromě toho můžete nastavit různá nastavení rozpoznávání pro předběžné zpracování zdrojového souboru, jako je odstranění šumu, nastavení kontrastu, kontrola zkosení vstupních stránek atd. pro lepší a přesné rozpoznání textu pomocí OCR.

Získejte bezplatnou zkušební licenci

Můžete požádat o bezplatnou dočasnou licenci k vyhodnocení API bez jakýchkoliv omezení hodnocení.

Shrnutí

Díky technologii OCR a Pythonu se extrahování textu z naskenovaných souborů PDF a jejich převod do prohledávatelných nebo upravitelných formátů stalo velmi dostupným. Zde jsme prozkoumali proces rozpoznávání textu PDF pomocí OCR v Pythonu. Probrali jsme proces instalace a extrakci textu z naskenovaných PDF, implementaci OCR a převod naskenovaných PDF do prohledávatelných nebo upravitelných formátů. Využitím možností OCR a využitím pokročilých technik můžete odemknout plný potenciál naskenovaných PDF a učinit je ve svých projektech dostupnějšími a všestrannějšími. V případě jakýchkoliv nejasností nebo dotazů nás prosím kontaktujte prostřednictvím free support forum.

Viz také