Dans divers scénarios, le texte est extrait des documents pour un traitement ultérieur tel que l’analyse de texte, la classification, etc. Parmi d’autres documents tels que PDF et Word, les fichiers PowerPoint sont également utilisés dans l’extraction de texte. Par conséquent, cet article vise à vous montrer comment extraire du texte de fichiers PowerPoint en Python. Nous verrons comment extraire du texte d’une diapositive spécifique ou de l’ensemble de la présentation.
- Bibliothèque Python pour extraire du texte à partir de fichiers PowerPoint
- Extraire du texte à partir de fichiers PowerPoint
Bibliothèque Python pour extraire du texte à partir de fichiers PowerPoint
Pour extraire du texte à partir de fichiers PowerPoint, nous utiliserons Aspose.Slides for Python via .NET. Il s’agit d’une bibliothèque Python riche en fonctionnalités pour créer et mettre à jour des présentations PowerPoint. De plus, il vous permet de manipuler et de convertir les présentations de manière transparente. Vous pouvez installer cette bibliothèque à partir de PyPI à l’aide de la commande pip suivante.
> pip install aspose.slides
Extraire du texte à partir de fichiers PowerPoint en Python
Selon le scénario, vous devrez peut-être extraire du texte de l’ensemble de la présentation PowerPoint ou de certaines diapositives spécifiques. Dans les sections suivantes, nous montrerons comment effectuer l’extraction de texte dans les deux cas mentionnés ci-dessus. Alors continuons.
Extraire le texte d’une diapositive spécifique
Voici les étapes pour extraire le texte d’une diapositive spécifique dans PPT en Python.
Tout d’abord, utilisez la méthode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) pour obtenir tous les types de texte dans la présentation.
Après cela, utilisez index pour extraire le texte d’une diapositive spécifique à partir du tableau slidestext.
Voici les types de texte que vous pouvez extraire :
Texte de la diapositive
Remarques
Texte de mise en page des diapositives
Texte du masque de diapositive
L’exemple de code suivant montre comment extraire du texte d’une diapositive PPT spécifique en Python.
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Extraction de texte à partir d’un fichier PowerPoint entier en Python
Les étapes suivantes montrent comment extraire du texte de toutes les diapositives d’une présentation PowerPoint.
- Tout d’abord, utilisez la méthode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) pour obtenir tous les types de texte dans la présentation.
- Charger la présentation dans un objet Presentation.
- Parcourez le nombre de diapositives de la présentation.
- Extrayez le texte de chaque diapositive à l’aide du tableau slidestext.
L’exemple de code suivant montre comment extraire du texte d’un fichier PPTX (ou PPT) en Python.
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:
# Loop through slides in the presentation
for index in range(ppt.slides.length):
# Print text of desired sections such as slide's text, layout text, notes, etc.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Obtenez une licence gratuite
Vous pouvez utiliser Aspose.Slides for Python via .NET sans limitation d’évaluation en obtenant une licence temporaire.
Conclusion
Dans cet article, vous avez appris à extraire du texte de fichiers PowerPoint en Python. Vous avez vu comment extraire du texte d’une diapositive spécifique ou de toutes les diapositives d’une présentation PowerPoint. En outre, vous pouvez explorer d’autres fonctionnalités d’Aspose.Slides for Python à l’aide de la documentation. Vous pouvez également partager vos questions avec nous via notre forum.