在 Python 中從 PowerPoint 文件中提取文本

在各種情況下,從文檔中提取文本以進行進一步處理,例如文本分析、分類等。在 PDF 和 Word 等其他文檔中,PowerPoint 文件也用於文本提取。因此,本文旨在向您展示如何使用 Python 從 PowerPoint PPT 中提取文本。我們將介紹如何從特定幻燈片或整個演示文稿中提取文本。

從 PowerPoint PPT 中提取文本的 Python 庫

要從 PowerPoint PPT 中提取文本,我們將使用 Aspose.Slides for Python via .NET。它是一個功能豐富的 Python 庫,用於創建和更新 PowerPoint 演示文稿。此外,它允許您無縫地操作和轉換演示文稿。您可以使用以下 pip 命令從 PyPI 安裝此庫。

> pip install aspose.slides 

在 Python 中從 PowerPoint PPT 中提取文本

根據具體情況,您可能需要從整個 PowerPoint 演示文稿或某些特定幻燈片中提取文本。在接下來的部分中,我們將演示如何在上述兩種情況下執行文本提取。讓我們繼續吧。

Python:從特定的 PPT 幻燈片中提取文本

以下是用Python從PPT中的特定幻燈片中提取文本的步驟。

以下代碼示例顯示瞭如何使用 Python 從特定 PPT 幻燈片中提取文本。

import aspose.slides as slides

# 從演示文稿中獲取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# 使用其索引打印所需幻燈片的文本
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

在 Python 中從整個 PowerPoint PPT 中提取文本

以下步驟演示瞭如何從 PowerPoint 演示文稿的所有幻燈片中提取文本。

以下代碼示例顯示瞭如何使用 Python 從 PPTX(或 PPT)文件中提取文本。

import aspose.slides as slides

# 從演示文稿中獲取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# 加載演示文稿以獲取幻燈片計數
with slides.Presentation("presentation.pptx") as ppt:

    # 循環瀏覽演示文稿中的幻燈片
   for index in range(ppt.slides.length):

        # 打印所需部分的文本,例如幻燈片文本、佈局文本、註釋等。
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Python PPT 文本提取庫 - 獲取免費許可證

通過獲得臨時許可,您可以不受評估限制地使用 Aspose.Slides for Python。

結論

在本文中,您學習瞭如何使用 Python 從 PowerPoint PPT 中提取文本。您已經了解瞭如何從 PowerPoint 演示文稿中的特定幻燈片或所有幻燈片中提取文本。此外,您可以使用 文檔 探索 Aspose.Slides for Python 的其他功能。此外,您可以通過我們的 論壇 與我們分享您的疑問。

也可以看看