Extrahera text från PDF i Python

När du bearbetar PDF-filer behöver du ofta extrahera innehåll från sidorna som vanlig text. Denna klartext kan vidare användas för olika ändamål, såsom textanalys, textbearbetning etc. I den här artikeln får du lära dig hur du extraherar text från en PDF i Python. Med hjälp av kodexempel kommer artikeln att demonstrera hur man utför textextraktion på en hel PDF eller en enskild sida.

Python-bibliotek för att extrahera text från PDF

För att extrahera text från PDF-filer kommer vi att använda Aspose.PDF for Python. Det är ett kraftfullt PDF-manipuleringsbibliotek som låter dig skapa och bearbeta PDF-filer. Dessutom låter den dig konvertera PDF-filer till andra format.

Du kan installera Aspose.PDF för Python med följande pip-kommando.

pip install aspose-pdf

Extrahera text från PDF i Python

Följande är stegen för att extrahera text från en PDF i Python.

  • Använd klassen Document för att ladda PDF-filen.
  • Skapa en instans av klassen TextDevice.
  • Starta en loop för antalet sidor gånger.
  • I varje iteration, extrahera text från en sida med metoden TextDevice.process() och spara den extraherade texten i .txt-fil.

Följande kodexempel visar hur man extraherar text från PDF i Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Öppna PDF-dokument
document = ap.Document("input.pdf")

# Skapa textenhet
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Exportera sidan till TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extrahera text från en specifik sida i PDF

Du kan också extrahera text från en specifik sida i PDF-filen med hjälp av sidnumret i Document.pages-arrayen. Följande kodexempel visar hur man extraherar text från en specifik sida i PDF.

import aspose.pdf as ap

# Öppna PDF-dokument
document = ap.Document("input.pdf")

# Skapa textenhet
textDevice = ap.devices.TextDevice()

# Extrahera text från första sidan
textDevice.process(document.pages[1], "extracted_text.txt")

Extrahera text från PDF online

Du kan också använda vårt onlineverktyg för PDF-textextraktion för att extrahera text från PDF-filer. Det är ett gratis verktyg som du kan använda utan någon prenumeration eller registrering.

Gratis PDF Text Extraction Library

Skaffa din gratis tillfälliga licens och extrahera text från PDF-filer utan några begränsningar.

Utforska Python PDF-bibliotek

Du kan utforska mer om Python PDF-biblioteket med hjälp av dokumentationen. Dessutom kan du skicka dina frågor till vårt forum.

Slutsats

I den här artikeln har du lärt dig hur du extraherar text från PDF i Python. Stegen och kodexemplen har visat hur man extraherar text från en hel PDF eller en specifik sida. Du kan enkelt installera biblioteket och utföra textextrahering från dina Python-applikationer.

Se även