OCR PDF och extrahera text från PDF i Python

Optical Character Recognition (OCR)-teknik spelar en avgörande roll för att digitalisera tryckt, skannat eller handskriven text från olika källor, inklusive PDF-dokument. I det här blogginlägget kommer vi att lära oss hur man OCR PDF-dokument och extraherar text från PDF i Python.

Den här artikeln tar upp följande ämnen:

  1. PDF till TXT Python OCR API
  2. OCR PDF och extrahera text från PDF
  3. Spara skannad PDF till text
  4. Gratis läranderesurser

PDF till TXT - Python OCR API

Vi kommer att använda Aspose.OCR for Python för att utföra OCR på PDF-dokument och extrahera text från PDF-filer. Aspose.OCR för Python är ett kraftfullt API för optisk teckenigenkänning (OCR) som kan känna igen text från skannade bilder, smartphonefoton, skärmdumpar och bildområden. API:et returnerar igenkända textresultat i de mest populära dokument- och datautbytesformaten, inklusive PDF, XML, JSON och vanlig text.

Förutom att konvertera bilder till text kan Aspose.OCR för Python också skapa sökbara PDF-filer baserat på skanningar. API:et kan också autokorrigera stavfel i igenkända texter, vilket gör det idealiskt för en mängd olika applikationer.

Vänligen ladda ner paketet eller installera API:et från PyPI med följande pip-kommando i konsolen:

pip install aspose-ocr-python-net

Python OCR PDF - Extrahera text från PDF i Python

Vi kan utföra OCR på PDF-dokument och extrahera den igenkända texten genom att följa stegen nedan:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Lägg till PDF-fil till igenkänningsbatchen.
  4. Efter det, anropa metoden identifi() .
  5. Visa slutligen den identifierade texten med klassen RecognitionResult.

Följande exempelkod visar hur man OCR PDF-dokument och extraherar text från PDF i Python.

# Detta kodexempel visar hur man känner igen och extraherar text från ett skannat PDF-dokument i Python.
import aspose.ocr as ocr

# Initiera OCR-motorn
api = ocr.AsposeOcr()

# Initiera RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Lägg till fil till igenkänningsbatchen
files = ocr.OcrInput(ocr.InputType.PDF)

# Öppna den skannade PDF-filen och ställ in sidnummer och totalt antal sidor
files.add("C:\\Files\\sample.pdf", 0, 1)

# Känner igen texten
result = api.recognize(files , settings)

# Resultat för utskriftsigenkänning
print(result[0].recognition_text)

Python OCR PDF - Spara skannad PDF till text i Python

Vi kan utföra OCR på PDF-dokument och spara den igenkända texten genom att följa stegen nedan:

  1. Skapa en instans av klassen AsposeOcr.
  2. Initiera ett objekt av klassen DocumentRecognitionSettings.
  3. Lägg till PDF-fil till igenkänningsbatchen.
  4. Efter det, anropa metoden identifi() .
  5. Slutligen sparar du texten med metoden savemultipagedocument() . Det tar utdatafilens sökväg, SaveFormat och RecognitionResult-objektet som argument.

Följande exempelkod visar hur man OCR PDF-dokument och sparar den igenkända texten i Python.

# Detta kodexempel visar hur man sparar den igenkännande och extrahera texten med Python.
import aspose.ocr as ocr

# Initiera OCR-motorn
api = ocr.AsposeOcr()

# Initiera RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Lägg till fil till igenkänningsbatchen
files = ocr.OcrInput(ocr.InputType.PDF)

# Öppna den skannade PDF-filen och ställ in sidnummer och totalt antal sidor
files.add("C:\\Files\\sample.pdf", 0, 1)

# Känner igen texten
result = api.recognize(files , settings)

# Resultat för utskriftsigenkänning
print(result[0].recognition_text)

# Spara den extraherade texten
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Skaffa en gratis utvärderingslicens

Du kan få en gratis tillfällig licens för att prova biblioteket utan utvärderingsbegränsningar.

Python OCR PDF - Gratis resurser

Du kan utforska följande resurser ytterligare för att lära dig Python OCR API:

Slutsats

I den här artikeln lärde vi oss hur man utför OCR på PDF-dokument och extraherar text från PDF i Python. Möjligheten att extrahera text från PDF-filer med OCR är en gamechanger inom många branscher, från arkivering och juridisk dokumentation till dataanalys och digitalisering av innehåll. Genom att utnyttja Aspose.OCR för Python kan utvecklare och entusiaster sömlöst integrera OCR-funktioner i sina Python-projekt. I händelse av oklarheter är du välkommen att kontakta oss på vårt gratis supportforum.

Se även