Extrahieren Sie Bilder aus Word Dokumenten in Python

Ein Bild sagt mehr als tausend Worte. Aus diesem Grund sind Bilder ein wesentlicher Bestandteil von Dokumenten, insbesondere von Word Dokumenten. Die Bilder werden verwendet, um den Inhalt attraktiver und auffälliger zu machen. Beim Analysieren von Word Dokumenten können Sie auf das Szenario stoßen, in dem Sie Bilder extrahieren müssen. Um dies programmgesteuert zu erreichen, behandelt dieser Artikel das Extrahieren von Bildern aus Word Dokumenten in Python.

Python Bibliothek zum Extrahieren von Bildern aus Word Dokumenten

Aspose.Words for Python ist eine leistungsstarke und funktionsreiche Bibliothek, die zum Erstellen und Bearbeiten von Word Dokumenten verwendet wird. Wir werden diese Bibliothek verwenden, um Bilder aus DOCX oder DOC Dateien zu extrahieren. Sie können es in Ihren Python Anwendungen von PyPI aus mit dem folgenden Pip Befehl installieren.

pip install aspose-words

Extrahieren von Bildern aus Word Dokumenten in Python

Die Bilder in Word Dokumenten werden durch die Formknoten dargestellt. Um Bilder aus einem Dokument abzurufen, müssen Sie daher die Formen analysieren. Die folgenden Schritte zeigen, wie Sie Bilder aus einem Word Dokument in Python extrahieren.

  • Laden Sie zuerst das Word Dokument mit der Document Klasse.
  • Rufen Sie dann alle Formen mithilfe der Methode Document.get\child\nodes(NodeType.SHAPE, True) in ein Objekt ab.
  • Durchlaufen Sie die Formen und führen Sie für jede Form die folgenden Vorgänge aus:
    • Wandeln Sie die Form mit der methode as\shape() in den Shape-Typ um.
    • Überprüfen Sie, ob die Form ein Bild hat, indem Sie die Methode Shape.has\image() verwenden.
    • Speichern Sie die Form mit der methode Shape.image\data.save(string) als Bild.

Das folgende Codebeispiel zeigt, wie Bilder aus einem DOCX-Dokument in Python extrahiert werden.

import aspose.words as aw

# load the Word document
doc = aw.Document("calibre.docx")

# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# loop through shapes
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # set image file's name
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # save image
        shape.image_data.save(imageFileName)
        imageIndex += 1

Holen Sie sich eine kostenlose API Lizenz

Sie können eine vorübergehende Lizenz erwerben, um Aspose.Words for Python ohne Evaluierungseinschränkungen zu verwenden.

Fazit

Bilder werden häufig in Word Dokumenten verwendet, um den Inhalt ansprechender zu gestalten. In verschiedenen Fällen müssen neben dem Text auch Bilder aus den Dokumenten extrahiert werden. Daher haben Sie in diesem Artikel gelernt, wie Sie Bilder aus Word Dokumenten in Python extrahieren. Außerdem können Sie die Dokumentation von Aspose.Words for Python durchsuchen. Falls Sie Fragen haben, können Sie uns diese gerne über unser Forum mitteilen.

Siehe auch

Info: Wenn Sie jemals ein Word Dokument aus einer PowerPoint Präsentation erhalten müssen, können Sie den Konverter Aspose Presentation to Word Document verwenden.