extrahovat obrázky z dokumentů aplikace Word v pythonu

Obrázek vydá za tisíc slov. To je důvod, proč jsou obrázky nedílnou součástí dokumentů, konkrétně dokumentů aplikace Word. Obrázky slouží k tomu, aby byl obsah atraktivnější a poutavější. Při analýze dokumentů aplikace Word můžete narazit na scénář, kdy potřebujete extrahovat obrázky. Chcete-li toho dosáhnout programově, tento článek popisuje, jak extrahovat obrázky z Word DOC DOCX v Python.

Knihovna Python pro extrahování obrázků z dokumentů Word DOC DOCX

Aspose.Words for Python je výkonná knihovna s bohatými funkcemi, která se používá k vytváření a manipulaci s dokumenty Wordu. Tuto knihovnu použijeme k extrahování obrázků ze souborů DOCX nebo DOC. Můžete jej nainstalovat do svých aplikací Python z PyPI pomocí následujícího příkazu pip.

pip install aspose-words

Extrahování obrázků z Word DOC v Python

Obrázky v dokumentech aplikace Word jsou reprezentovány uzly tvaru. Chcete-li tedy načíst obrázky z dokumentu, budete muset tvary analyzovat. Následující kroky ukazují, jak extrahovat obrázky z Word DOC v Python.

  • Nejprve načtěte dokument aplikace Word pomocí třídy Document.
  • Poté načtěte všechny tvary do objektu pomocí metody Document.getchildnodes(NodeType.SHAPE, True).
  • Procházejte tvary a pro každý tvar proveďte následující operace:
    • Přeneste tvar do typu Shape pomocí metody asshape().
    • Zkontrolujte, zda má tvar obraz pomocí metody Shape.hasimage().
    • Uložte tvar jako obrázek pomocí metody Shape.imagedata.save(string).

Následující ukázka kódu ukazuje, jak extrahovat obrázky z dokumentu Word DOCX v Python.

import aspose.words as aw

# načíst dokument aplikace Word
doc = aw.Document("calibre.docx")

# získat všechny tvary
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# procházet tvary
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # nastavit název souboru obrázku
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # uložit obrázek
        shape.image_data.save(imageFileName)
        imageIndex += 1

API pro extrahování obrázků z DOC DOCX - Získejte bezplatnou licenci API

Můžete získat dočasnou licenci k používání Aspose.Words for Python bez omezení hodnocení.

Závěr

Obrázky se běžně používají v dokumentech aplikace Word, aby byl obsah atraktivnější. V různých případech je také nutné extrahovat z dokumentů spolu s textem obrázky. Proto jste se v tomto článku naučili, jak extrahovat obrázky z dokumentů Word DOC DOCX v Python. Kromě toho můžete prozkoumat dokumentaci Aspose.Words for Python. V případě jakýchkoli dotazů nás neváhejte kontaktovat prostřednictvím našeho fóra.

Viz také

Informace: Pokud někdy potřebujete získat dokument aplikace Word z prezentace v PowerPointu, můžete použít převodník Aspose Presentation to Word Document.