在各种场景中,从文档中提取文本以进行进一步的处理,如文本分析、分类等。在 PDF 和 Word 等其他文档中,PowerPoint 文件也用于文本提取。因此,本文旨在向您展示如何在 Python 中从 PowerPoint PPT 中提取文本。我们将介绍如何从特定幻灯片或整个演示文稿中提取文本。
从 PowerPoint PPT 中提取文本的 Python 库
为了从 PowerPoint PPT 中提取文本,我们将使用 Aspose.Slides for Python via .NET。它是一个功能丰富的 Python 库,用于创建和更新 PowerPoint 演示文稿。此外,它还允许您无缝地操作和转换演示文稿。您可以使用以下 pip 命令从 PyPI 安装此库。
> pip install aspose.slides
用 Python 从 PowerPoint PPT 中提取文本
根据具体情况,您可能需要从整个 PowerPoint 演示文稿或某些特定幻灯片中提取文本。在以下部分中,我们将演示如何在上述两种情况下执行文本提取。所以让我们继续吧。
Python:从特定的 PPT 幻灯片中提取文本
以下是在 Python 中从 PPT 中的特定幻灯片中提取文本的步骤。
首先,使用 PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) 方法获取演示文稿中所有类型的文本。
之后,使用 index 从 slidestext 数组中提取特定幻灯片的文本。
以下是您可以提取的文本类型:
幻灯片的文字
笔记
幻灯片布局文本
幻灯片母版文本
以下代码示例展示了如何从 Python 中的特定 PPT 幻灯片中提取文本。
import aspose.slides as slides
# 从演示文稿中获取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# 使用其索引打印所需幻灯片的文本
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
在 Python 中从整个 PowerPoint PPT 中提取文本
以下步骤演示如何从 PowerPoint 演示文稿的所有幻灯片中提取文本。
- 首先,使用 PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) 方法获取演示文稿中所有类型的文本。
- 在 Presentation 对象中加载演示文稿。
- 遍历演示文稿中的幻灯片数量。
- 使用 slidestext 数组从每张幻灯片中提取文本。
以下代码示例展示了如何在 Python 中从 PPTX(或 PPT)文件中提取文本。
import aspose.slides as slides
# 从演示文稿中获取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# 加载演示文稿以获取幻灯片计数
with slides.Presentation("presentation.pptx") as ppt:
# 循环播放演示文稿中的幻灯片
for index in range(ppt.slides.length):
# 打印所需部分的文本,例如幻灯片的文本、布局文本、注释等。
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Python PPT 文本提取库 - 获取免费许可证
通过获得临时许可证,您可以在没有评估限制的情况下使用 Aspose.Slides for Python。
结论
在本文中,您学习了如何在 Python 中从 PowerPoint PPT 中提取文本。您已经了解了如何从 PowerPoint 演示文稿中的特定幻灯片或所有幻灯片中提取文本。此外,您可以使用 documentation 探索 Aspose.Slides for Python 的其他功能。此外,您可以通过我们的 论坛 与我们分享您的疑问。