さまざまなシナリオで、テキストは、テキスト分析、分類などのさらなる処理のためにドキュメントから抽出されます。PDFやWordなどの他のドキュメントの中でも、PowerPointファイルはテキスト抽出にも使用されます。したがって、この記事は、PythonでPowerPointファイルからテキストを抽出する方法を紹介することを目的としています。特定のスライドまたはプレゼンテーション全体からテキストを抽出する方法について説明します。
PowerPointファイルからテキストを抽出するPythonライブラリ
PowerPointファイルからテキストを抽出するには、Aspose.Slides for Python via .NETを使用します。これは、PowerPointプレゼンテーションを作成および更新するための機能豊富なPythonライブラリです。さらに、プレゼンテーションをシームレスに操作および変換できます。次のpipコマンドを使用して、PyPIからこのライブラリをインストールできます。
> pip install aspose.slides
PythonでPowerPointファイルからテキストを抽出する
シナリオによっては、PowerPointプレゼンテーション全体または特定のスライドからテキストを抽出する必要がある場合があります。次のセクションでは、上記の両方の場合にテキスト抽出を実行する方法を示します。それでは先に進みましょう。
特定のスライドからテキストを抽出する
以下は、PythonのPPTで特定のスライドからテキストを抽出する手順です。
まず、PresentationFactory().get \ presentation \ text(string, TextExtractionArrangingMode)メソッドを使用して、プレゼンテーション内のすべてのタイプのテキストを取得します。
その後、インデックスを使用して、slides\text配列から特定のスライドのテキストを抽出します。
抽出できるテキストの種類は次のとおりです。
スライドのテキスト
ノート
スライドレイアウトテキスト
スライドマスターテキスト
次のコードサンプルは、Pythonで特定のPPTスライドからテキストを抽出する方法を示しています。
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
PythonでのPowerPointファイル全体からのテキスト抽出
次の手順は、PowerPointプレゼンテーションのすべてのスライドからテキストを抽出する方法を示しています。
- まず、PresentationFactory().get \ presentation \ text(string, TextExtractionArrangingMode)メソッドを使用して、プレゼンテーション内のすべてのタイプのテキストを取得します。
- Presentationオブジェクトにプレゼンテーションをロードします。
- プレゼンテーションのスライドの数を繰り返します。
- slides \textarrayを使用して各スライドからテキストを抽出します。
次のコードサンプルは、PythonでPPTX(またはPPT)ファイルからテキストを抽出する方法を示しています。
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:
# Loop through slides in the presentation
for index in range(ppt.slides.length):
# Print text of desired sections such as slide's text, layout text, notes, etc.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
無料ライセンスを取得する
一時ライセンスを取得することで、評価の制限なしに.NET経由でAspose.Slides for Pythonを使用できます。
結論
この記事では、PythonでPowerPointファイルからテキストを抽出する方法を学びました。 PowerPointプレゼンテーションの特定のスライドまたはすべてのスライドからテキストを抽出する方法を見てきました。さらに、ドキュメントを使用して、Python用のAspose.Slidesの他の機能を調べることができます。また、フォーラムを介してクエリを共有することもできます。