En bild säger mer än tusen ord. Detta är anledningen till att bilder är en integrerad del av dokument, särskilt Word-dokument. Bilderna används för att göra innehållet mer attraktivt och iögonfallande. När du analyserar Word-dokument kan du stöta på scenariot där du behöver extrahera bilder. För att uppnå detta programmatiskt tar den här artikeln upp hur man extraherar bilder från Word DOC DOCX i Python.
Python-bibliotek för att extrahera bilder från Word DOC DOCX-dokument
Aspose.Words for Python är ett kraftfullt och funktionsrikt bibliotek som används för att skapa och manipulera Word-dokument. Vi kommer att använda det här biblioteket för att extrahera bilder från DOCX- eller DOC-filer. Du kan installera det i dina Python-applikationer från PyPI med följande pip-kommando.
pip install aspose-words
Extrahera bilder från Word DOC i Python
Bilderna i Word-dokument representeras av formnoderna. Därför måste du analysera formerna för att hämta bilder från ett dokument. Följande steg visar hur man extraherar bilder från en Word DOC i Python.
- Ladda först Word-dokumentet med Document class.
- Hämta sedan alla former till ett objekt med metoden Document.getchildnodes(NodeType.SHAPE, True).
- Gå igenom formerna och utför följande operationer för varje form:
- Kasta formen till Shape-typ med metoden asshape().
- Kontrollera om formen har en bild med metoden Shape.hasimage().
- Spara formen som en bild med metoden Shape.imagedata.save(string).
Följande kodexempel visar hur man extraherar bilder från ett Word DOCX-dokument i Python.
import aspose.words as aw
# ladda Word-dokumentet
doc = aw.Document("calibre.docx")
# hämta alla former
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# slinga genom former
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# ställ in bildfilens namn
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# spara bild
shape.image_data.save(imageFileName)
imageIndex += 1
API för att extrahera bilder från DOC DOCX - Skaffa en gratis API-licens
Du kan få en tillfällig licens för att använda Aspose.Words för Python utan utvärderingsbegränsningar.
Slutsats
Bilder används ofta i Word-dokument för att göra innehållet mer tilltalande. I olika fall krävs också att bilder extraheras från dokumenten tillsammans med texten. Därför har du i den här artikeln lärt dig hur du extraherar bilder från Word DOC DOCX-dokument i Python. Förutom detta kan du utforska dokumentationen av Aspose.Words för Python. Om du har några frågor är du välkommen att meddela oss via vårt forum.
Se även
- Skapa MS Word-dokument med Python
- Konvertera Word-dokument till HTML med Python
- Konvertera Word-dokument till PNG, JPEG eller BMP i Python
- Word-dokument till Markdown med Python
- Jämför två Word-dokument i Python
Info: Om du någonsin behöver få ett Word-dokument från en PowerPoint-presentation kan du använda Aspose Presentation to Word Document-konverteraren.