在 Python 中从 PowerPoint 文件中提取文本

在各种场景中,从文档中提取文本以进行进一步的处理,如文本分析、分类等。在 PDF 和 Word 等其他文档中,PowerPoint 文件也用于文本提取。因此,本文旨在向您展示如何在 Python 中从 PowerPoint PPT 中提取文本。我们将介绍如何从特定幻灯片或整个演示文稿中提取文本。

从 PowerPoint PPT 中提取文本的 Python 库

为了从 PowerPoint PPT 中提取文本,我们将使用 Aspose.Slides for Python via .NET。它是一个功能丰富的 Python 库,用于创建和更新 PowerPoint 演示文稿。此外,它还允许您无缝地操作和转换演示文稿。您可以使用以下 pip 命令从 PyPI 安装此库。

> pip install aspose.slides 

用 Python 从 PowerPoint PPT 中提取文本

根据具体情况,您可能需要从整个 PowerPoint 演示文稿或某些特定幻灯片中提取文本。在以下部分中,我们将演示如何在上述两种情况下执行文本提取。所以让我们继续吧。

Python:从特定的 PPT 幻灯片中提取文本

以下是在 Python 中从 PPT 中的特定幻灯片中提取文本的步骤。

以下代码示例展示了如何从 Python 中的特定 PPT 幻灯片中提取文本。

import aspose.slides as slides

# 从演示文稿中获取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# 使用其索引打印所需幻灯片的文本
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

在 Python 中从整个 PowerPoint PPT 中提取文本

以下步骤演示如何从 PowerPoint 演示文稿的所有幻灯片中提取文本。

以下代码示例展示了如何在 Python 中从 PPTX(或 PPT)文件中提取文本。

import aspose.slides as slides

# 从演示文稿中获取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# 加载演示文稿以获取幻灯片计数
with slides.Presentation("presentation.pptx") as ppt:

    # 循环播放演示文稿中的幻灯片
   for index in range(ppt.slides.length):

        # 打印所需部分的文本,例如幻灯片的文本、布局文本、注释等。
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Python PPT 文本提取库 - 获取免费许可证

通过获得临时许可证,您可以在没有评估限制的情况下使用 Aspose.Slides for Python。

结论

在本文中,您学习了如何在 Python 中从 PowerPoint PPT 中提取文本。您已经了解了如何从 PowerPoint 演示文稿中的特定幻灯片或所有幻灯片中提取文本。此外,您可以使用 documentation 探索 Aspose.Slides for Python 的其他功能。此外,您可以通过我们的 论坛 与我们分享您的疑问。

也可以看看