extrahera bilder från word-dokument i python

En bild säger mer än tusen ord. Detta är anledningen till att bilder är en integrerad del av dokument, särskilt Word-dokument. Bilderna används för att göra innehållet mer attraktivt och iögonfallande. När du analyserar Word-dokument kan du stöta på scenariot där du behöver extrahera bilder. För att uppnå detta programmatiskt tar den här artikeln upp hur man extraherar bilder från Word DOC DOCX i Python.

Python-bibliotek för att extrahera bilder från Word DOC DOCX-dokument

Aspose.Words for Python är ett kraftfullt och funktionsrikt bibliotek som används för att skapa och manipulera Word-dokument. Vi kommer att använda det här biblioteket för att extrahera bilder från DOCX- eller DOC-filer. Du kan installera det i dina Python-applikationer från PyPI med följande pip-kommando.

pip install aspose-words

Extrahera bilder från Word DOC i Python

Bilderna i Word-dokument representeras av formnoderna. Därför måste du analysera formerna för att hämta bilder från ett dokument. Följande steg visar hur man extraherar bilder från en Word DOC i Python.

  • Ladda först Word-dokumentet med Document class.
  • Hämta sedan alla former till ett objekt med metoden Document.getchildnodes(NodeType.SHAPE, True).
  • Gå igenom formerna och utför följande operationer för varje form:
    • Kasta formen till Shape-typ med metoden asshape().
    • Kontrollera om formen har en bild med metoden Shape.hasimage().
    • Spara formen som en bild med metoden Shape.imagedata.save(string).

Följande kodexempel visar hur man extraherar bilder från ett Word DOCX-dokument i Python.

import aspose.words as aw

# ladda Word-dokumentet
doc = aw.Document("calibre.docx")

# hämta alla former
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# slinga genom former
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # ställ in bildfilens namn
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # spara bild
        shape.image_data.save(imageFileName)
        imageIndex += 1

API för att extrahera bilder från DOC DOCX - Skaffa en gratis API-licens

Du kan få en tillfällig licens för att använda Aspose.Words för Python utan utvärderingsbegränsningar.

Slutsats

Bilder används ofta i Word-dokument för att göra innehållet mer tilltalande. I olika fall krävs också att bilder extraheras från dokumenten tillsammans med texten. Därför har du i den här artikeln lärt dig hur du extraherar bilder från Word DOC DOCX-dokument i Python. Förutom detta kan du utforska dokumentationen av Aspose.Words för Python. Om du har några frågor är du välkommen att meddela oss via vårt forum.

Se även

Info: Om du någonsin behöver få ett Word-dokument från en PowerPoint-presentation kan du använda Aspose Presentation to Word Document-konverteraren.