Obrázek vydá za tisíc slov. To je důvod, proč jsou obrázky nedílnou součástí dokumentů, konkrétně dokumentů aplikace Word. Obrázky slouží k tomu, aby byl obsah atraktivnější a poutavější. Při analýze dokumentů aplikace Word můžete narazit na scénář, kdy potřebujete extrahovat obrázky. Chcete-li toho dosáhnout programově, tento článek popisuje, jak extrahovat obrázky z Word DOC DOCX v Python.
- Knihovna Python pro extrahování obrázků z Wordu DOC DOCX
- Extrahování obrázků z dokumentů aplikace Word
Knihovna Python pro extrahování obrázků z dokumentů Word DOC DOCX
Aspose.Words for Python je výkonná knihovna s bohatými funkcemi, která se používá k vytváření a manipulaci s dokumenty Wordu. Tuto knihovnu použijeme k extrahování obrázků ze souborů DOCX nebo DOC. Můžete jej nainstalovat do svých aplikací Python z PyPI pomocí následujícího příkazu pip.
pip install aspose-words
Extrahování obrázků z Word DOC v Python
Obrázky v dokumentech aplikace Word jsou reprezentovány uzly tvaru. Chcete-li tedy načíst obrázky z dokumentu, budete muset tvary analyzovat. Následující kroky ukazují, jak extrahovat obrázky z Word DOC v Python.
- Nejprve načtěte dokument aplikace Word pomocí třídy Document.
- Poté načtěte všechny tvary do objektu pomocí metody Document.getchildnodes(NodeType.SHAPE, True).
- Procházejte tvary a pro každý tvar proveďte následující operace:
- Přeneste tvar do typu Shape pomocí metody asshape().
- Zkontrolujte, zda má tvar obraz pomocí metody Shape.hasimage().
- Uložte tvar jako obrázek pomocí metody Shape.imagedata.save(string).
Následující ukázka kódu ukazuje, jak extrahovat obrázky z dokumentu Word DOCX v Python.
import aspose.words as aw
# načíst dokument aplikace Word
doc = aw.Document("calibre.docx")
# získat všechny tvary
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# procházet tvary
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# nastavit název souboru obrázku
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# uložit obrázek
shape.image_data.save(imageFileName)
imageIndex += 1
API pro extrahování obrázků z DOC DOCX - Získejte bezplatnou licenci API
Můžete získat dočasnou licenci k používání Aspose.Words for Python bez omezení hodnocení.
Závěr
Obrázky se běžně používají v dokumentech aplikace Word, aby byl obsah atraktivnější. V různých případech je také nutné extrahovat z dokumentů spolu s textem obrázky. Proto jste se v tomto článku naučili, jak extrahovat obrázky z dokumentů Word DOC DOCX v Python. Kromě toho můžete prozkoumat dokumentaci Aspose.Words for Python. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.
Viz také
- Vytvářejte dokumenty MS Word pomocí Python
- Převeďte dokument Word do HTML pomocí Python
- Převeďte dokumenty Word do PNG, JPEG nebo BMP v Python
- Dokumenty Word do Markdown pomocí Python
- Porovnejte dva dokumenty Word v Python
Informace: Pokud někdy potřebujete získat dokument aplikace Word z prezentace v PowerPointu, můžete použít převodník Aspose Presentation to Word Document.