Extrahieren Sie Text aus PowerPoint Java

Möglicherweise müssen Sie häufig Text aus den PowerPoint-Folien extrahieren, um eine Textanalyse durchzuführen. Andererseits möchten Sie den Text vielleicht extrahieren und in einer Datei oder Datenbank zur weiteren Verarbeitung speichern. Dementsprechend behandelt dieser Artikel das Extrahieren von Text aus PowerPoint Präsentationen mit Java. Insbesondere lernen Sie, wie Sie Text aus einer bestimmten Folie oder einer ganzen Präsentation extrahieren.

Java API zum Extrahieren von Text aus PowerPoint PPTX

Um PowerPoint Präsentationen zu manipulieren, bietet Aspose Aspose.Slides for Java. Die genannte API wurde entwickelt, um PowerPoint-Automatisierungsfunktionen in Java Anwendungen zu implementieren. Es bietet auch einige einfache Möglichkeiten zum Extrahieren von Text aus PPT/PPTX-Präsentationen. Sie können die API entweder herunterladen oder sie mit den folgenden Maven konfigurationen installieren.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extrahieren Sie Text aus einer PowerPoint-Folie in Java

Im Folgenden sind die Schritte zum Extrahieren von Text aus einer Folie in einer PowerPoint Präsentation mit Java aufgeführt.

Das folgende Codebeispiel zeigt, wie Sie Text aus einer PowerPoint-Folie extrahieren.

//Instanziieren Sie die PresentationEx Klasse, die eine PPTX Datei darstellt
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Rufen Sie ein Array von ITextFrame objekten von der ersten Folie ab
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Durchlaufen Sie das Array von TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Absätze im aktuellen TextFrame durchlaufen
    for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Teile im aktuellen Absatz durchlaufen
        for (IPortion port : para.getPortions())
        {
            //Text im aktuellen Abschnitt anzeigen
            System.out.println(port.getText());

            //Schrifthöhe des Textes anzeigen
            System.out.println(port.getPortionFormat().getFontHeight());

            //Schriftartnamen des Textes anzeigen
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extrahieren Sie Text aus der gesamten PowerPoint Präsentation

Sie können auch Text aus der gesamten PowerPoint Präsentation extrahieren. Im Folgenden sind die Schritte zum Ausführen dieses Vorgangs aufgeführt.

  • Laden Sie die Präsentation mit der Klasse Presentation.
  • Rufen Sie alle Textrahmen in der Präsentation mit der methode SlideUtil.getAllTextFrames() ab.
  • Durchlaufen Sie jeden ITextFrame und greifen Sie auf seine Absätze zu.
  • Greifen Sie auf die Teile der Absätze zu und drucken Sie ihren Text aus.

Das folgende Codebeispiel zeigt, wie Sie Text aus einer PowerPoint Präsentation extrahieren.

//Instanziieren Sie die PresentationEx Klasse, die eine PPTX Datei darstellt
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Rufen Sie ein Array von ITextFrame objekten von der ersten Folie ab
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Durchlaufen Sie das Array von TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Absätze im aktuellen TextFrame durchlaufen
    for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Teile im aktuellen Absatz durchlaufen
        for (IPortion port : para.getPortions())
        {
            //Text im aktuellen Abschnitt anzeigen
            System.out.println(port.getText());
        }
    }
}

Holen Sie sich eine kostenlose API Lizenz

Falls Sie die API ohne Evaluierungseinschränkungen verwenden möchten, können Sie eine kostenlose temporäre Lizenz erhalten.

Versuchen Sie es online

Sie können auch den kostenlosen Online-Präsentationsparser ausprobieren, der mit Aspose.Slides entwickelt wurde.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie mit Java Text aus PowerPoint Präsentationen extrahieren. Die Codebeispiele haben gezeigt, wie Text aus einer bestimmten Folie oder der gesamten Präsentation extrahiert wird. Weitere Informationen zu Aspose.Slides for Java finden Sie unter Dokumentation. Falls Sie Fragen haben, informieren Sie uns über unser Forum.

Siehe auch