När du bearbetar PDF-filer behöver du ofta extrahera innehåll från sidorna som vanlig text. Denna klartext kan vidare användas för olika ändamål, såsom textanalys, textbearbetning etc. I den här artikeln får du lära dig hur du extraherar text från en PDF i Python. Med hjälp av kodexempel kommer artikeln att demonstrera hur man utför textextraktion på en hel PDF eller en enskild sida.
- Python-bibliotek för att extrahera text från PDF
- Extrahera text från PDF i Python
- Extrahera text från en sida i PDF
- Online PDF Text Extractor
Python-bibliotek för att extrahera text från PDF
För att extrahera text från PDF-filer kommer vi att använda Aspose.PDF for Python. Det är ett kraftfullt PDF-manipuleringsbibliotek som låter dig skapa och bearbeta PDF-filer. Dessutom låter den dig konvertera PDF-filer till andra format.
Du kan installera Aspose.PDF för Python med följande pip-kommando.
pip install aspose-pdf
Extrahera text från PDF i Python
Följande är stegen för att extrahera text från en PDF i Python.
- Använd klassen Document för att ladda PDF-filen.
- Skapa en instans av klassen TextDevice.
- Starta en loop för antalet sidor gånger.
- I varje iteration, extrahera text från en sida med metoden TextDevice.process() och spara den extraherade texten i .txt-fil.
Följande kodexempel visar hur man extraherar text från PDF i Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Öppna PDF-dokument
document = ap.Document("input.pdf")
# Skapa textenhet
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Exportera sidan till TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Extrahera text från en specifik sida i PDF
Du kan också extrahera text från en specifik sida i PDF-filen med hjälp av sidnumret i Document.pages-arrayen. Följande kodexempel visar hur man extraherar text från en specifik sida i PDF.
import aspose.pdf as ap
# Öppna PDF-dokument
document = ap.Document("input.pdf")
# Skapa textenhet
textDevice = ap.devices.TextDevice()
# Extrahera text från första sidan
textDevice.process(document.pages[1], "extracted_text.txt")
Extrahera text från PDF online
Du kan också använda vårt onlineverktyg för PDF-textextraktion för att extrahera text från PDF-filer. Det är ett gratis verktyg som du kan använda utan någon prenumeration eller registrering.
Gratis PDF Text Extraction Library
Skaffa din gratis tillfälliga licens och extrahera text från PDF-filer utan några begränsningar.
Utforska Python PDF-bibliotek
Du kan utforska mer om Python PDF-biblioteket med hjälp av dokumentationen. Dessutom kan du skicka dina frågor till vårt forum.
Slutsats
I den här artikeln har du lärt dig hur du extraherar text från PDF i Python. Stegen och kodexemplen har visat hur man extraherar text från en hel PDF eller en specifik sida. Du kan enkelt installera biblioteket och utföra textextrahering från dina Python-applikationer.