在各種情況下,從文檔中提取文本以進行進一步處理,例如文本分析、分類等。在 PDF 和 Word 等其他文檔中,PowerPoint 文件也用於文本提取。因此,本文旨在向您展示如何使用 Python 從 PowerPoint PPT 中提取文本。我們將介紹如何從特定幻燈片或整個演示文稿中提取文本。
從 PowerPoint PPT 中提取文本的 Python 庫
要從 PowerPoint PPT 中提取文本,我們將使用 Aspose.Slides for Python via .NET。它是一個功能豐富的 Python 庫,用於創建和更新 PowerPoint 演示文稿。此外,它允許您無縫地操作和轉換演示文稿。您可以使用以下 pip 命令從 PyPI 安裝此庫。
> pip install aspose.slides
在 Python 中從 PowerPoint PPT 中提取文本
根據具體情況,您可能需要從整個 PowerPoint 演示文稿或某些特定幻燈片中提取文本。在接下來的部分中,我們將演示如何在上述兩種情況下執行文本提取。讓我們繼續吧。
Python:從特定的 PPT 幻燈片中提取文本
以下是用Python從PPT中的特定幻燈片中提取文本的步驟。
首先,使用 PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) 方法獲取演示文稿中的所有類型的文本。
之後,使用索引從 slidestext 數組中提取特定幻燈片的文本。
以下是您可以提取的文本類型:
幻燈片的文字
筆記
幻燈片佈局文本
幻燈片母版文本
以下代碼示例顯示瞭如何使用 Python 從特定 PPT 幻燈片中提取文本。
import aspose.slides as slides
# 從演示文稿中獲取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# 使用其索引打印所需幻燈片的文本
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
在 Python 中從整個 PowerPoint PPT 中提取文本
以下步驟演示瞭如何從 PowerPoint 演示文稿的所有幻燈片中提取文本。
- 首先,使用 PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) 方法獲取演示文稿中的所有類型的文本。
- 在 Presentation 對像中加載演示文稿。
- 遍歷演示文稿中的幻燈片數量。
- 使用 slidestext 數組從每張幻燈片中提取文本。
以下代碼示例顯示瞭如何使用 Python 從 PPTX(或 PPT)文件中提取文本。
import aspose.slides as slides
# 從演示文稿中獲取所有文本
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# 加載演示文稿以獲取幻燈片計數
with slides.Presentation("presentation.pptx") as ppt:
# 循環瀏覽演示文稿中的幻燈片
for index in range(ppt.slides.length):
# 打印所需部分的文本,例如幻燈片文本、佈局文本、註釋等。
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Python PPT 文本提取庫 - 獲取免費許可證
通過獲得臨時許可,您可以不受評估限制地使用 Aspose.Slides for Python。
結論
在本文中,您學習瞭如何使用 Python 從 PowerPoint PPT 中提取文本。您已經了解瞭如何從 PowerPoint 演示文稿中的特定幻燈片或所有幻燈片中提取文本。此外,您可以使用 文檔 探索 Aspose.Slides for Python 的其他功能。此外,您可以通過我們的 論壇 與我們分享您的疑問。