Ein Bild sagt mehr als tausend Worte. Aus diesem Grund sind Bilder ein wesentlicher Bestandteil von Dokumenten, insbesondere von Word Dokumenten. Die Bilder werden verwendet, um den Inhalt attraktiver und auffälliger zu machen. Beim Analysieren von Word Dokumenten können Sie auf das Szenario stoßen, in dem Sie Bilder extrahieren müssen. Um dies programmgesteuert zu erreichen, behandelt dieser Artikel das Extrahieren von Bildern aus Word Dokumenten in Python.
- Python Bibliothek zum Extrahieren von Bildern aus Word Dokumenten
- Extrahieren von Bildern aus Word Dokumenten
Python Bibliothek zum Extrahieren von Bildern aus Word Dokumenten
Aspose.Words for Python ist eine leistungsstarke und funktionsreiche Bibliothek, die zum Erstellen und Bearbeiten von Word Dokumenten verwendet wird. Wir werden diese Bibliothek verwenden, um Bilder aus DOCX oder DOC Dateien zu extrahieren. Sie können es in Ihren Python Anwendungen von PyPI aus mit dem folgenden Pip Befehl installieren.
pip install aspose-words
Extrahieren von Bildern aus Word Dokumenten in Python
Die Bilder in Word Dokumenten werden durch die Formknoten dargestellt. Um Bilder aus einem Dokument abzurufen, müssen Sie daher die Formen analysieren. Die folgenden Schritte zeigen, wie Sie Bilder aus einem Word Dokument in Python extrahieren.
- Laden Sie zuerst das Word Dokument mit der Document Klasse.
- Rufen Sie dann alle Formen mithilfe der Methode Document.get\child\nodes(NodeType.SHAPE, True) in ein Objekt ab.
- Durchlaufen Sie die Formen und führen Sie für jede Form die folgenden Vorgänge aus:
- Wandeln Sie die Form mit der methode as\shape() in den Shape-Typ um.
- Überprüfen Sie, ob die Form ein Bild hat, indem Sie die Methode Shape.has\image() verwenden.
- Speichern Sie die Form mit der methode Shape.image\data.save(string) als Bild.
Das folgende Codebeispiel zeigt, wie Bilder aus einem DOCX-Dokument in Python extrahiert werden.
import aspose.words as aw
# load the Word document
doc = aw.Document("calibre.docx")
# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# loop through shapes
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# set image file's name
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# save image
shape.image_data.save(imageFileName)
imageIndex += 1
Holen Sie sich eine kostenlose API Lizenz
Sie können eine vorübergehende Lizenz erwerben, um Aspose.Words for Python ohne Evaluierungseinschränkungen zu verwenden.
Fazit
Bilder werden häufig in Word Dokumenten verwendet, um den Inhalt ansprechender zu gestalten. In verschiedenen Fällen müssen neben dem Text auch Bilder aus den Dokumenten extrahiert werden. Daher haben Sie in diesem Artikel gelernt, wie Sie Bilder aus Word Dokumenten in Python extrahieren. Außerdem können Sie die Dokumentation von Aspose.Words for Python durchsuchen. Falls Sie Fragen haben, können Sie uns diese gerne über unser Forum mitteilen.
Siehe auch
- Erstellen Sie MS Word Dokumente mit Python
- Konvertieren Sie Word Dokumente mit Python in HTML
- Konvertieren Sie Word Dokumente in Python in PNG, JPEG oder BMP
- Word Dokumente zu Markdown mit Python
- Vergleichen Sie zwei Word Dokumente in Python
Info: Wenn Sie jemals ein Word Dokument aus einer PowerPoint Präsentation erhalten müssen, können Sie den Konverter Aspose Presentation to Word Document verwenden.