Extrahera text från PDF i Python

Som programmerare kan du behöva bearbeta ett gäng PDF-filer och extrahera text från dem. Textextraktion från PDF kan krävas för olika ändamål som textanalys. I den här artikeln kommer vi att visa hur lätt det är att extrahera text från en PDF-fil i Python. Dessutom kommer du att få veta hur man extraherar text och sparar i en TXT-fil.

Python-bibliotek för att extrahera text från PDF - Gratis nedladdning

Aspose.Words for Python är ett fantastiskt bibliotek som låter dig skapa och bearbeta textdokument sömlöst. Du kan manipulera dokument i populära format som DOC, DOCX och PDF. Vi kommer att använda det här biblioteket för att utföra textextraktion på våra PDF-filer. Du kan installera biblioteket från PyPI med följande pip-kommando.

> pip install aspose-words

Hur man extraherar text från PDF i Python

Aspose.Words för Python har gjort PDF-textextraktion extremt enkelt genom att dölja de komplexa operationerna för användaren. Du behöver bara ladda PDF-filen och spara den extraherade texten. Följande steg visar hur man extraherar text från en PDF med Aspose.Words för Python.

  • Ladda PDF-filen från önskad plats.
  • Extrahera och spara texten i en .txt-fil.

Och det är det. Du kan sedan bearbeta .txt-filen och manipulera den vanliga texten som extraherats från PDF-filen.

Låt oss nu ta en titt på hur man extraherar text från en PDF-fil programmatiskt i Python.

Textextraktion från PDF i Python

Följande är stegen tillsammans med klasser och metoder för PDF-textextraktion i Python.

  • Ladda PDF-filen med Document class.
  • Extrahera text från PDF till en .txt-fil med metoden Document.save(filnamn).

Följande kodexempel visar textextraktionen från en PDF-fil i Python.

# Importera Aspose.Words för Python-modulen
import aspose.words as aw

# Ladda PDF-fil
pdf = aw.Document("file.pdf")

# Extrahera och spara text i en TXT-fil
pdf.save("extracted-text.txt")

Följande skärmdump visar indata-PDF-filen som vi har använt för textextraktion.

PDF för att extrahera text i Python

Följande skärmdump visar den extraherade texten i en TXT-fil.

Extraherad text från PDF till TXT

PDF Text Extractor för Python - Skaffa en gratis licens

Du kan få en gratis tillfällig licens för att extrahera text från PDF utan utvärderingsbegränsningar.

Slutsats

I den här artikeln har du lärt dig hur du extraherar text från PDF-filer i Python. Du har sett hur enkelt och snabbt du kan extrahera text från en PDF och spara den i en TXT-fil programmatiskt. Nu kan du implementera textextraktion för ett parti PDF-filer i dina Python-applikationer.

Utforska Asposes PDF Text Extractor för Python

Du kan utforska andra funktioner i Aspose.Words for Python med hjälp av dokumentationen. Om du har några frågor är du välkommen att meddela oss via vårt forum.

Se även