Bilder används ofta i PDF-dokument tillsammans med text, vilket gör innehållet mer tilltalande och utarbetande. När du bearbetar och analyserar PDF-dokumenten kan du behöva extrahera bilder också. Därför kommer vi i den här artikeln att visa hur man bearbetar PDF-filer och extraherar bilder programmatiskt i Python. Steg-för-steg-guiden och kodexemplet kommer att demonstrera hela bildextraktionsprocessen.
- Python Library för att extrahera bilder från PDF
- Steg för att extrahera bilder från PDF
- Extrahera bilder från PDF i Python
Python Library för att extrahera bilder från PDF
För att extrahera bilder från en PDF-fil kommer vi att använda Aspose.Words for Python. Det är ett kraftfullt och funktionsrikt bibliotek för att skapa och manipulera textdokument inklusive PDF och DOCX. Du kan installera biblioteket från PyPI med följande pip-kommando.
> pip install aspose-words
Steg för att extrahera bilder från PDF
Aspose.Words for Python låter dig extrahera bilderna från en PDF-fil med några enkla steg. Följande är arbetsflödet för hur man extraherar bilder från en PDF med Aspose.Words för Python.
- Ladda PDF-filen från önskad plats.
- Konvertera PDF till DOCX-format.
- Bearbeta DOCX-versionen av PDF och extrahera bilder
- Spara varje bild som en fil på önskad plats.
Följande avsnitt visar hur man omvandlar de ovan nämnda stegen till Python-kod och extraherar bilder från en PDF.
Extrahera bilder från PDF i Python
I processen med bildextraktion kommer vi först att konvertera PDF-filen till DOCX-format. I en DOCX-fil representeras bilderna av formnoderna. Därför kommer vi att bearbeta varje form och extrahera bilden från den.
Följande är stegen för att extrahera bilder från en PDF i Python.
- Ladda först PDF-filen med Document class.
- Spara sedan PDF i DOCX-format och ladda DOCX-versionen av PDF-filen.
- Hämta alla former till ett objekt med metoden Document.getchildnodes(NodeType.SHAPE, True).
- Gå igenom formerna och utför följande operationer för varje formnod:
- Kasta formen till Shape-typ med metoden asshape().
- Använd metoden Shape.hasimage() för att kontrollera om formen har en bild.
- Extrahera bilden från formen och spara den med metoden Shape.imagedata.save(string).
Följande kodexempel demonstrerar bildextraktion från ett PDF-dokument i Python.
# Importera Aspose.Words för Python-modulen
import aspose.words as aw
# ladda PDF-fil och konvertera till Word DOCX-format
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")
# ladda DOCX-versionen av PDF
doc = aw.Document("pdf.docx")
# hämta alla former
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# slinga genom former
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# ställ in bildfilens namn
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# spara bild
shape.image_data.save(imageFileName)
imageIndex += 1
Python PDF-bildextraktionsbibliotek - Skaffa en gratis licens
Du kan få en gratis tillfällig licens för att extrahera bilder från PDF utan utvärderingsbegränsningar.
Slutsats
När PDF-dokumenten analyseras måste bilder också extraheras tillsammans med texten. I den här artikeln har du lärt dig hur du extraherar bilder från en PDF i Python. Du kan helt enkelt installera Aspose.Words för Python och integrera bildextraktion i dina applikationer.
Utforska Asposes PDF-bildextraktionsbibliotek
Aspose.Words för Python erbjuder en rad andra funktioner för att manipulera textdokument. Du kan besöka dokumentationen för att utforska mer om biblioteket. Om du har några frågor är du välkommen att meddela oss via vårt forum.