wyodrębnij obrazy z dokumentów Word w Python

Obraz jest wart tysiąca słów. To jest powód, dla którego obrazy są integralną częścią dokumentów, w szczególności dokumentów Worda. Obrazy służą do uatrakcyjnienia treści i przyciągnięcia uwagi. Podczas analizowania dokumentów programu Word możesz natknąć się na scenariusz, w którym musisz wyodrębnić obrazy. Aby osiągnąć to programowo, w tym artykule omówiono sposób wyodrębniania obrazów z programu Word DOC DOCX w języku Python.

Biblioteka Python do wyodrębniania obrazów z dokumentów Word DOC DOCX

Aspose.Words for Python to potężna i bogata w funkcje biblioteka, która służy do tworzenia dokumentów Worda i manipulowania nimi. Użyjemy tej biblioteki do wyodrębnienia obrazów z plików DOCX lub DOC. Możesz zainstalować go w swoich aplikacjach Python z PyPI za pomocą następującego polecenia pip.

pip install aspose-words

Wyodrębnianie obrazów z programu Word DOC w Python

Obrazy w dokumentach programu Word są reprezentowane przez węzły kształtu. Dlatego, aby pobrać obrazy z dokumentu, będziesz musiał przeanalizować kształty. Poniższe kroki pokazują, jak wyodrębnić obrazy z dokumentu Word DOC w Python.

  • Najpierw załaduj dokument programu Word przy użyciu klasy Document.
  • Następnie pobierz wszystkie kształty do obiektu, używając metody Document.getchildnodes(NodeType.SHAPE, True).
  • Zapętlaj kształty i dla każdego kształtu wykonaj następujące operacje:
    • Rzuć kształt na typ Shape za pomocą metody asshape().
    • Sprawdź, czy kształt ma obraz, używając metody Shape.hasimage() .
    • Zapisz kształt jako obraz, używając metody Shape.imagedata.save(string).

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z dokumentu Word DOCX w języku Python.

import aspose.words as aw

# załaduj dokument Worda
doc = aw.Document("calibre.docx")

# odzyskać wszystkie kształty
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# pętla przez kształty
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # ustaw nazwę pliku obrazu
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # zapisać obraz
        shape.image_data.save(imageFileName)
        imageIndex += 1

API do wyodrębniania obrazów z DOC DOCX — Uzyskaj bezpłatną licencję API

Możesz uzyskać tymczasową licencję na używanie Aspose.Words for Python bez ograniczeń ewaluacyjnych.

Wniosek

Obrazy są powszechnie używane w dokumentach programu Word, aby zwiększyć atrakcyjność treści. W różnych przypadkach wymagane jest również wyodrębnienie obrazów z dokumentów wraz z tekstem. Dlatego w tym artykule nauczyłeś się, jak wyodrębniać obrazy z dokumentów Word DOC DOCX w Python. Poza tym możesz zapoznać się z dokumentacją Aspose.Words for Python. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.

Zobacz też

Info: Jeśli kiedykolwiek będziesz potrzebował pobrać dokument Word z prezentacji PowerPoint, możesz użyć konwertera Aspose Presentation to Word Document.