Extraire le texte de PowerPoint Java

Vous devrez souvent extraire du texte des diapositives PowerPoint afin d’effectuer une analyse de texte. D’autre part, vous souhaiterez peut-être extraire et enregistrer le texte dans un fichier ou une base de données pour un traitement ultérieur. Conformément à cela, cet article explique comment extraire du texte de présentations PowerPoint à l’aide de Java. En particulier, vous apprendrez à extraire du texte d’une diapositive spécifique ou d’une présentation entière.

API Java pour extraire du texte de PowerPoint PPTX

Afin de manipuler les présentations PowerPoint, Aspose propose Aspose.Slides for Java. Ladite API est conçue pour implémenter les fonctionnalités d’automatisation de PowerPoint dans les applications Java. Il fournit également des moyens simples d’extraire du texte des présentations PPT/PPTX. Vous pouvez soit télécharger l’API ou l’installer à l’aide des configurations Maven suivantes.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extraire le texte d’une diapositive PowerPoint en Java

Voici les étapes pour extraire le texte d’une diapositive dans une présentation PowerPoint à l’aide de Java.

L’exemple de code suivant montre comment extraire du texte d’une diapositive PowerPoint.

//Créer une classe PresentationEx qui représente un fichier PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obtenir un tableau d'objets ITextFrame à partir de la première diapositive
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Boucle à travers le tableau de TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Boucle à travers les paragraphes dans le TextFrame actuel
    for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Boucle sur des parties du paragraphe actuel
        for (IPortion port : para.getPortions())
        {
            //Afficher le texte dans la partie actuelle
            System.out.println(port.getText());

            //Afficher la hauteur de la police du texte
            System.out.println(port.getPortionFormat().getFontHeight());

            //Afficher le nom de la police du texte
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extraire le texte de toute la présentation PowerPoint

Vous pouvez également extraire le texte de l’ensemble de la présentation PowerPoint. Voici les étapes pour effectuer cette opération.

  • Chargez la présentation à l’aide de la classe Presentation.
  • Obtenez tous les cadres de texte dans la présentation à l’aide de la méthode SlideUtil.getAllTextFrames().
  • Parcourez chaque ITextFrame et accédez à ses paragraphes.
  • Accédez aux parties des paragraphes et imprimez leur texte.

L’exemple de code suivant montre comment extraire du texte d’une présentation PowerPoint.

//Créer une classe PresentationEx qui représente un fichier PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obtenir un tableau d'objets ITextFrame à partir de la première diapositive
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Boucle à travers le tableau de TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Boucle à travers les paragraphes dans le TextFrame actuel
    for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Boucle sur des parties du paragraphe actuel
        for (IPortion port : para.getPortions())
        {
            //Afficher le texte dans la partie actuelle
            System.out.println(port.getText());
        }
    }
}

Obtenez une licence API gratuite

Si vous souhaitez utiliser l’API sans limitations d’évaluation, vous pouvez obtenir une licence temporaire gratuite.

Essayez en ligne

Vous pouvez également essayer l’analyseur de présentation en ligne gratuit, développé à l’aide d’Aspose.Slides.

Conclusion

Dans cet article, vous avez appris à extraire du texte de présentations PowerPoint à l’aide de Java. Les exemples de code ont montré comment extraire du texte d’une diapositive spécifique ou de l’ensemble de la présentation. Vous pouvez en savoir plus sur Aspose.Slides for Java en utilisant documentation. Si vous avez des questions, informez-nous via notre forum.

Voir également