在 Python 中从 PDF 中提取图像

图像通常与文本一起用于 PDF 文档，这使得内容更具吸引力和详细说明。在处理和分析 PDF 文档时，您可能还需要提取图像。因此，在本文中，我们将演示如何在 Python 中以编程方式处理 PDF 文件和提取图像。分步指南和代码示例将演示整个图像提取过程。

从 PDF 中提取图像的 Python 库
从 PDF 中提取图像的步骤
在 Python 中从 PDF 中提取图像

从 PDF 中提取图像的 Python 库

要从 PDF 文件中提取图像，我们将使用 Aspose.Words for Python。它是一个功能强大且功能丰富的库，用于创建和操作包括 PDF 和 DOCX 在内的文本文档。您可以使用以下 pip 命令从 PyPI 安装库。

> pip install aspose-words

从 PDF 中提取图像的步骤

Aspose.Words for Python 让您可以通过几个简单的步骤从 PDF 文件中提取图像。以下是如何使用 Aspose.Words for Python 从 PDF 中提取图像的工作流程。

从所需位置加载 PDF 文件。
将 PDF 转换为 DOCX 格式。
处理 DOCX 版本的 PDF 并提取图像
将每个图像作为文件保存到所需位置。

以下部分演示如何将上述步骤转换为 Python 代码并从 PDF 中提取图像。

在 Python 中从 PDF 中提取图像

在图像提取过程中，我们首先将PDF文件转换为DOCX格式。在 DOCX 文件中，图像由形状节点表示。因此，我们将处理每个形状并从中提取图像。

以下是在 Python 中从 PDF 中提取图像的步骤。

首先，使用 Document 类加载 PDF 文件。
然后，将 PDF 保存为 DOCX 格式并加载 PDF 文件的 DOCX 版本。
使用 Document.getchildnodes(NodeType.SHAPE, True) 方法将所有形状检索到一个对象中。
循环遍历形状并对每个形状节点执行以下操作：
- 使用 asshape() 方法将形状转换为 Shape 类型。
- 使用 Shape.hasimage() 方法检查形状是否有图像。
- 从形状中提取图像并使用 Shape.imagedata.save(string) 方法保存。

以下代码示例演示了从 Python 中的 PDF 文档中提取图像。

# 导入 Aspose.Words for Python 模块
import aspose.words as aw

# 加载 PDF 文件并转换为 Word DOCX 格式
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# 加载 PDF 的 DOCX 版本
doc = aw.Document("pdf.docx")

# 检索所有形状
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# 循环遍历形状
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # 设置图像文件的名称
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # 保存图片
        shape.image_data.save(imageFileName)
        imageIndex += 1

Python PDF 图像提取库 - 获得免费许可证

您可以获得免费的临时许可证以从 PDF 中提取图像而不受评估限制。

结论

在分析 PDF 文档时，还需要将图像与文本一起提取。在本文中，您学习了如何使用 Python 从 PDF 中提取图像。您可以简单地安装 Aspose.Words for Python 并将图像提取集成到您的应用程序中。

探索 Aspose 的 PDF 图像提取库

Aspose.Words for Python 提供了一系列其他功能来操作文本文档。您可以访问文档以探索有关该库的更多信息。如果您有任何问题，请随时通过我们的论坛告诉我们。

从 PDF 中提取图像的 Python 库#

从 PDF 中提取图像的步骤#

在 Python 中从 PDF 中提取图像#

Python PDF 图像提取库 - 获得免费许可证#

结论#

探索 Aspose 的 PDF 图像提取库#

也可以看看#

从 PDF 中提取图像的 Python 库

从 PDF 中提取图像的步骤

在 Python 中从 PDF 中提取图像

Python PDF 图像提取库 - 获得免费许可证

结论

探索 Aspose 的 PDF 图像提取库

也可以看看