PythonでPowerPointファイルからテキストを抽出する

さまざまなシナリオで、テキストは、テキスト分析、分類などのさらなる処理のためにドキュメントから抽出されます。PDFやWordなどの他のドキュメントの中でも、PowerPointファイルはテキスト抽出にも使用されます。したがって、この記事は、PythonでPowerPointファイルからテキストを抽出する方法を紹介することを目的としています。特定のスライドまたはプレゼンテーション全体からテキストを抽出する方法について説明します。

PowerPointファイルからテキストを抽出するPythonライブラリ

PowerPointファイルからテキストを抽出するには、Aspose.Slides for Python via .NETを使用します。これは、PowerPointプレゼンテーションを作成および更新するための機能豊富なPythonライブラリです。さらに、プレゼンテーションをシームレスに操作および変換できます。次のpipコマンドを使用して、PyPIからこのライブラリをインストールできます。

> pip install aspose.slides 

PythonでPowerPointファイルからテキストを抽出する

シナリオによっては、PowerPointプレゼンテーション全体または特定のスライドからテキストを抽出する必要がある場合があります。次のセクションでは、上記の両方の場合にテキスト抽出を実行する方法を示します。それでは先に進みましょう。

特定のスライドからテキストを抽出する

以下は、PythonのPPTで特定のスライドからテキストを抽出する手順です。

  • まず、PresentationFactory().get \ presentation \ text(string, TextExtractionArrangingMode)メソッドを使用して、プレゼンテーション内のすべてのタイプのテキストを取得します。

  • その後、インデックスを使用して、slides\text配列から特定のスライドのテキストを抽出します。

  • 抽出できるテキストの種類は次のとおりです。

    • スライドのテキスト

    • ノート

    • スライドレイアウトテキスト

    • スライドマスターテキスト

次のコードサンプルは、Pythonで特定のPPTスライドからテキストを抽出する方法を示しています。

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

PythonでのPowerPointファイル全体からのテキスト抽出

次の手順は、PowerPointプレゼンテーションのすべてのスライドからテキストを抽出する方法を示しています。

次のコードサンプルは、PythonでPPTX(またはPPT)ファイルからテキストを抽出する方法を示しています。

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:

    # Loop through slides in the presentation
    for index in range(ppt.slides.length):

        # Print text of desired sections such as slide's text, layout text, notes, etc.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

無料ライセンスを取得する

一時ライセンスを取得することで、評価の制限なしに.NET経由でAspose.Slides for Pythonを使用できます。

結論

この記事では、PythonでPowerPointファイルからテキストを抽出する方法を学びました。 PowerPointプレゼンテーションの特定のスライドまたはすべてのスライドからテキストを抽出する方法を見てきました。さらに、ドキュメントを使用して、Python用のAspose.Slidesの他の機能を調べることができます。また、フォーラムを介してクエリを共有することもできます。

関連項目