Som programmerare kan du behöva bearbeta ett gäng PDF-filer och extrahera text från dem. Textextraktion från PDF kan krävas för olika ändamål som textanalys. I den här artikeln kommer vi att visa hur lätt det är att extrahera text från en PDF-fil i Python. Dessutom kommer du att få veta hur man extraherar text och sparar i en TXT-fil.
- Python-bibliotek för att extrahera text från PDF-filer
- Hur man extraherar text från en PDF
- Textextraktion från en PDF i Python
Python-bibliotek för att extrahera text från PDF - Gratis nedladdning
Aspose.Words for Python är ett fantastiskt bibliotek som låter dig skapa och bearbeta textdokument sömlöst. Du kan manipulera dokument i populära format som DOC, DOCX och PDF. Vi kommer att använda det här biblioteket för att utföra textextraktion på våra PDF-filer. Du kan installera biblioteket från PyPI med följande pip-kommando.
> pip install aspose-words
Hur man extraherar text från PDF i Python
Aspose.Words för Python har gjort PDF-textextraktion extremt enkelt genom att dölja de komplexa operationerna för användaren. Du behöver bara ladda PDF-filen och spara den extraherade texten. Följande steg visar hur man extraherar text från en PDF med Aspose.Words för Python.
- Ladda PDF-filen från önskad plats.
- Extrahera och spara texten i en .txt-fil.
Och det är det. Du kan sedan bearbeta .txt-filen och manipulera den vanliga texten som extraherats från PDF-filen.
Låt oss nu ta en titt på hur man extraherar text från en PDF-fil programmatiskt i Python.
Textextraktion från PDF i Python
Följande är stegen tillsammans med klasser och metoder för PDF-textextraktion i Python.
- Ladda PDF-filen med Document class.
- Extrahera text från PDF till en .txt-fil med metoden Document.save(filnamn).
Följande kodexempel visar textextraktionen från en PDF-fil i Python.
# Importera Aspose.Words för Python-modulen
import aspose.words as aw
# Ladda PDF-fil
pdf = aw.Document("file.pdf")
# Extrahera och spara text i en TXT-fil
pdf.save("extracted-text.txt")
Följande skärmdump visar indata-PDF-filen som vi har använt för textextraktion.
Följande skärmdump visar den extraherade texten i en TXT-fil.
PDF Text Extractor för Python - Skaffa en gratis licens
Du kan få en gratis tillfällig licens för att extrahera text från PDF utan utvärderingsbegränsningar.
Slutsats
I den här artikeln har du lärt dig hur du extraherar text från PDF-filer i Python. Du har sett hur enkelt och snabbt du kan extrahera text från en PDF och spara den i en TXT-fil programmatiskt. Nu kan du implementera textextraktion för ett parti PDF-filer i dina Python-applikationer.
Utforska Asposes PDF Text Extractor för Python
Du kan utforska andra funktioner i Aspose.Words for Python med hjälp av dokumentationen. Om du har några frågor är du välkommen att meddela oss via vårt forum.