Extraire du texte à partir de fichiers PowerPoint en Python

Dans divers scénarios, le texte est extrait des documents pour un traitement ultérieur tel que l’analyse de texte, la classification, etc. Parmi d’autres documents tels que PDF et Word, les fichiers PowerPoint sont également utilisés dans l’extraction de texte. Par conséquent, cet article vise à vous montrer comment extraire du texte de fichiers PowerPoint en Python. Nous verrons comment extraire du texte d’une diapositive spécifique ou de l’ensemble de la présentation.

Bibliothèque Python pour extraire du texte à partir de fichiers PowerPoint

Pour extraire du texte à partir de fichiers PowerPoint, nous utiliserons Aspose.Slides for Python via .NET. Il s’agit d’une bibliothèque Python riche en fonctionnalités pour créer et mettre à jour des présentations PowerPoint. De plus, il vous permet de manipuler et de convertir les présentations de manière transparente. Vous pouvez installer cette bibliothèque à partir de PyPI à l’aide de la commande pip suivante.

> pip install aspose.slides 

Extraire du texte à partir de fichiers PowerPoint en Python

Selon le scénario, vous devrez peut-être extraire du texte de l’ensemble de la présentation PowerPoint ou de certaines diapositives spécifiques. Dans les sections suivantes, nous montrerons comment effectuer l’extraction de texte dans les deux cas mentionnés ci-dessus. Alors continuons.

Extraire le texte d’une diapositive spécifique

Voici les étapes pour extraire le texte d’une diapositive spécifique dans PPT en Python.

  • Tout d’abord, utilisez la méthode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) pour obtenir tous les types de texte dans la présentation.

  • Après cela, utilisez index pour extraire le texte d’une diapositive spécifique à partir du tableau slidestext.

  • Voici les types de texte que vous pouvez extraire :

    • Texte de la diapositive

    • Remarques

    • Texte de mise en page des diapositives

    • Texte du masque de diapositive

L’exemple de code suivant montre comment extraire du texte d’une diapositive PPT spécifique en Python.

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Extraction de texte à partir d’un fichier PowerPoint entier en Python

Les étapes suivantes montrent comment extraire du texte de toutes les diapositives d’une présentation PowerPoint.

L’exemple de code suivant montre comment extraire du texte d’un fichier PPTX (ou PPT) en Python.

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:

    # Loop through slides in the presentation
    for index in range(ppt.slides.length):

        # Print text of desired sections such as slide's text, layout text, notes, etc.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Obtenez une licence gratuite

Vous pouvez utiliser Aspose.Slides for Python via .NET sans limitation d’évaluation en obtenant une licence temporaire.

Conclusion

Dans cet article, vous avez appris à extraire du texte de fichiers PowerPoint en Python. Vous avez vu comment extraire du texte d’une diapositive spécifique ou de toutes les diapositives d’une présentation PowerPoint. En outre, vous pouvez explorer d’autres fonctionnalités d’Aspose.Slides for Python à l’aide de la documentation. Vous pouvez également partager vos questions avec nous via notre forum.

Voir également