OCR PDF Python

Skannade PDF-dokument är ofta utmanande att arbeta med på grund av bristen på sökbar eller redigerbar text. Men med kraften i OCR-tekniken (Optical Character Recognition) blir det verklighet att extrahera text från skannade PDF-filer och konvertera dem till sökbara eller redigerbara format. I det här blogginlägget kommer du att lära dig hur du utför PDF-textigenkänning med OCR i Python. Vi kommer också att utforska hur man extraherar text från skannade PDF-filer, konverterar dem till sökbara eller redigerbara PDF-filer och släpper lös potentialen hos Pythons OCR-funktioner med hjälp av Aspose.OCR for Python via .NET-biblioteket.

Känna igen text från skannad PDF med OCR – Python API-installation

Optical Character Recognition (OCR) är en teknik som tillåter konvertering av bilder eller skannade dokument till maskinläsbar text. Genom att analysera formerna och mönstren för tecken i en bild identifierar och känner OCR-algoritmer igen text, vilket gör det möjligt att extrahera och bearbeta informationen som finns i den. Innan du börjar måste du installera Aspose.OCR för Python via .NET genom att ladda ner det från sidan New Releases eller konfigurera det från PyPi genom att köra installationskommandot nedan:

pip install aspose-ocr-python-net

Känn igen text från PDF med OCR i Python

Du kan känna igen eller extrahera text från PDF med OCR i Python. Det kommer att extrahera texten från ett skannat PDF-dokument effektivt eftersom stegen nedan beskriver den enkla processen för att känna igen text från PDF med OCR i Python:

  1. Instantiera ett objekt av klassen AsposeOcr.
  2. Ladda den skannade PDF-filen.
  3. Känn igen text med OCR och skriv ut utdata till konsolen.

Exempelkoden nedan visar hur man känner igen text från PDF med OCR i Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Konvertera skannad PDF till sökbar eller redigerbar PDF med OCR i Python

Skannade PDF-filer innehåller bilder där du inte kan söka efter texten så du måste konvertera den till ett sökbart PDF-dokument för att göra dokumentet maskinläsbart och bearbeta det vidare därefter. Följ stegen nedan för att konvertera det till ett sökbart eller redigerbart PDF-dokument i Python:

  1. Skapa ett objekt av klassen AsposeOcr.
  2. Initiera klassinstansen [RecognitionSettings][5] och ställ in de nödvändiga egenskaperna.
  3. Ladda PDF-filen och ställ in sidintervallet för igenkänning med OCR.
  4. Spara den sökbara PDF-filen.

Följande exempelkod visar hur man konverterar en skannad PDF till ett sökbart PDF-dokument med OCR i Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Här är det anmärkningsvärt att du kan OCR alla sidor i PDF-dokumentet. Till exempel att endast känna igen text från specifika sidor där sidindexet är nollbaserat och den sista parametern är antalet sidor som ska bearbetas med API:et. Dessutom kan du ställa in olika igenkänningsinställningar för förbearbetning av källfilen som att ta bort bruset, ställa in kontrasten, kontrollera snedställningen av inmatningssidor etc. för förbättrad och exakt igenkänning av texten med OCR.

Skaffa en gratis utvärderingslicens

Du kan begära en gratis temporär licens för att utvärdera API:et utan några utvärderingsbegränsningar.

Summering

Med kraften i OCR-teknik och Python har det blivit mycket tillgängligt att extrahera text från skannade PDF-filer och konvertera dem till sökbara eller redigerbara format. Här har vi utforskat processen för PDF-textigenkänning med OCR i Python. Vi diskuterade installationsprocessen och extraheringen av text från skannade PDF-filer, OCR-implementering och konverteringen av skannade PDF-filer till sökbara eller redigerbara format. Genom att utnyttja OCR-funktioner och använda avancerade tekniker kan du låsa upp den fulla potentialen hos skannade PDF-filer och göra dem mer tillgängliga och mångsidiga i dina projekt. I händelse av oklarheter eller frågor, vänligen kontakta oss via gratis supportforum.

Se även