一张图片胜过千言万语。这就是图像是文档(尤其是 Word 文档)不可或缺的一部分的原因。图像用于使内容更具吸引力和醒目。在解析 Word 文档时,您可能会遇到需要提取图像的场景。为了以编程方式实现这一点,本文介绍了如何在 Python 中从 Word DOC DOCX 中提取图像。
用于从 Word DOC DOCX 文档中提取图像的 Python 库
Aspose.Words for Python 是一个功能强大且功能丰富的库,用于创建和操作 Word 文档。我们将使用这个库从 DOCX 或 DOC 文件中提取图像。您可以使用以下 pip 命令从 PyPI 将其安装到您的 Python 应用程序中。
pip install aspose-words
在 Python 中从 Word DOC 中提取图像
Word 文档中的图像由形状节点表示。因此,要从文档中检索图像,您必须解析形状。以下步骤展示了如何在 Python 中从 Word DOC 中提取图像。
- 首先,使用 Document 类加载 Word 文档。
- 然后,使用 Document.getchildnodes(NodeType.SHAPE, True) 方法将所有形状检索到一个对象中。
- 循环遍历形状并对每个形状执行以下操作:
- 使用 asshape() 方法将形状转换为 Shape 类型。
- 使用 Shape.hasimage() 方法检查形状是否有图像。
- 使用 Shape.imagedata.save(string) 方法将形状保存为图像。
以下代码示例展示了如何在 Python 中从 Word DOCX 文档中提取图像。
import aspose.words as aw
# 加载 Word 文档
doc = aw.Document("calibre.docx")
# 检索所有形状
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# 循环遍历形状
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# 设置图像文件的名称
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# 保存图片
shape.image_data.save(imageFileName)
imageIndex += 1
从 DOC DOCX 中提取图像的 API - 获取免费 API 许可证
您可以获得 临时许可证 以使用 Aspose.Words for Python,而不受评估限制。
结论
图像通常用于 Word 文档中,以使内容更具吸引力。在各种情况下,还需要从文档中提取图像以及文本。因此,在本文中,您学习了如何在 Python 中从 Word DOC DOCX 文档中提取图像。除此之外,您还可以探索 Aspose.Words for Python 的文档。如果您有任何问题,请随时通过我们的 论坛 告诉我们。
也可以看看
- 使用 Python 创建 MS Word 文档
- 使用 Python 将 Word 文档转换为 HTML
- 在 Python 中将 Word 文档转换为 PNG、JPEG 或 BMP
- 使用 Python 将 Word 文档转为 Markdown
- 在 Python 中比较两个 Word 文档
信息:如果您需要从 PowerPoint 演示文稿中获取 Word 文档,您可以使用 Aspose Presentation to Word Document 转换器。