Obraz jest wart tysiąca słów. To jest powód, dla którego obrazy są integralną częścią dokumentów, w szczególności dokumentów Worda. Obrazy służą do uatrakcyjnienia treści i przyciągnięcia uwagi. Podczas analizowania dokumentów programu Word możesz natknąć się na scenariusz, w którym musisz wyodrębnić obrazy. Aby osiągnąć to programowo, w tym artykule omówiono sposób wyodrębniania obrazów z programu Word DOC DOCX w języku Python.
- Biblioteka Python do wyodrębniania obrazów z programu Word DOC DOCX
- Wyodrębnianie obrazów z dokumentów programu Word
Biblioteka Python do wyodrębniania obrazów z dokumentów Word DOC DOCX
Aspose.Words for Python to potężna i bogata w funkcje biblioteka, która służy do tworzenia dokumentów Worda i manipulowania nimi. Użyjemy tej biblioteki do wyodrębnienia obrazów z plików DOCX lub DOC. Możesz zainstalować go w swoich aplikacjach Python z PyPI za pomocą następującego polecenia pip.
pip install aspose-words
Wyodrębnianie obrazów z programu Word DOC w Python
Obrazy w dokumentach programu Word są reprezentowane przez węzły kształtu. Dlatego, aby pobrać obrazy z dokumentu, będziesz musiał przeanalizować kształty. Poniższe kroki pokazują, jak wyodrębnić obrazy z dokumentu Word DOC w Python.
- Najpierw załaduj dokument programu Word przy użyciu klasy Document.
- Następnie pobierz wszystkie kształty do obiektu, używając metody Document.getchildnodes(NodeType.SHAPE, True).
- Zapętlaj kształty i dla każdego kształtu wykonaj następujące operacje:
- Rzuć kształt na typ Shape za pomocą metody asshape().
- Sprawdź, czy kształt ma obraz, używając metody Shape.hasimage() .
- Zapisz kształt jako obraz, używając metody Shape.imagedata.save(string).
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z dokumentu Word DOCX w języku Python.
import aspose.words as aw
# załaduj dokument Worda
doc = aw.Document("calibre.docx")
# odzyskać wszystkie kształty
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# pętla przez kształty
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# ustaw nazwę pliku obrazu
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# zapisać obraz
shape.image_data.save(imageFileName)
imageIndex += 1
API do wyodrębniania obrazów z DOC DOCX — Uzyskaj bezpłatną licencję API
Możesz uzyskać tymczasową licencję na używanie Aspose.Words for Python bez ograniczeń ewaluacyjnych.
Wniosek
Obrazy są powszechnie używane w dokumentach programu Word, aby zwiększyć atrakcyjność treści. W różnych przypadkach wymagane jest również wyodrębnienie obrazów z dokumentów wraz z tekstem. Dlatego w tym artykule nauczyłeś się, jak wyodrębniać obrazy z dokumentów Word DOC DOCX w Python. Poza tym możesz zapoznać się z dokumentacją Aspose.Words for Python. Jeśli masz jakieś pytania, daj nam znać za pośrednictwem naszego forum.
Zobacz też
- Twórz dokumenty MS Word za pomocą Python
- Konwertuj dokument Word na HTML za pomocą Python
- Konwertuj dokumenty programu Word do formatu PNG, JPEG lub BMP w Python
- Dokumenty Worda do Markdown przy użyciu Python
- Porównaj dwa dokumenty Worda w Python
Info: Jeśli kiedykolwiek będziesz potrzebował pobrać dokument Word z prezentacji PowerPoint, możesz użyć konwertera Aspose Presentation to Word Document.