从python中的word文档中提取图像

一张图片胜过千言万语。这就是图像是文档(尤其是 Word 文档)不可或缺的一部分的原因。图像用于使内容更具吸引力和醒目。在解析 Word 文档时,您可能会遇到需要提取图像的场景。为了以编程方式实现这一点,本文介绍了如何在 Python 中从 Word DOC DOCX 中提取图像。

用于从 Word DOC DOCX 文档中提取图像的 Python 库

Aspose.Words for Python 是一个功能强大且功能丰富的库,用于创建和操作 Word 文档。我们将使用这个库从 DOCX 或 DOC 文件中提取图像。您可以使用以下 pip 命令从 PyPI 将其安装到您的 Python 应用程序中。

pip install aspose-words

在 Python 中从 Word DOC 中提取图像

Word 文档中的图像由形状节点表示。因此,要从文档中检索图像,您必须解析形状。以下步骤展示了如何在 Python 中从 Word DOC 中提取图像。

  • 首先,使用 Document 类加载 Word 文档。
  • 然后,使用 Document.getchildnodes(NodeType.SHAPE, True) 方法将所有形状检索到一个对象中。
  • 循环遍历形状并对每个形状执行以下操作:
    • 使用 asshape() 方法将形状转换为 Shape 类型。
    • 使用 Shape.hasimage() 方法检查形状是否有图像。
    • 使用 Shape.imagedata.save(string) 方法将形状保存为图像。

以下代码示例展示了如何在 Python 中从 Word DOCX 文档中提取图像。

import aspose.words as aw

# 加载 Word 文档
doc = aw.Document("calibre.docx")

# 检索所有形状
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# 循环遍历形状
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # 设置图像文件的名称
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # 保存图片
        shape.image_data.save(imageFileName)
        imageIndex += 1

从 DOC DOCX 中提取图像的 API - 获取免费 API 许可证

您可以获得 临时许可证 以使用 Aspose.Words for Python,而不受评估限制。

结论

图像通常用于 Word 文档中,以使内容更具吸引力。在各种情况下,还需要从文档中提取图像以及文本。因此,在本文中,您学习了如何在 Python 中从 Word DOC DOCX 文档中提取图像。除此之外,您还可以探索 Aspose.Words for Python 的文档。如果您有任何问题,请随时通过我们的 论坛 告诉我们。

也可以看看

信息:如果您需要从 PowerPoint 演示文稿中获取 Word 文档,您可以使用 Aspose Presentation to Word Document 转换器。