Extrahera text från PowerPoint Java

Du kan ofta behöva extrahera text från PowerPoint-bilderna för att kunna utföra textanalys. Å andra sidan kanske du vill extrahera och spara texten i en fil eller databas för vidare bearbetning. I enlighet med det täcker den här artikeln hur man extraherar text från PowerPoint-presentationer med Java. I synnerhet kommer du att lära dig hur du extraherar text från en specifik bild eller hela presentationen.

Java API för att extrahera text från PowerPoint PPTX

För att manipulera PowerPoint-presentationer erbjuder Aspose Aspose.Slides för Java. Nämnda API är utformat för att implementera PowerPoint-automationsfunktioner i Java-applikationer. Det ger också några enkla sätt att extrahera text från PPT/PPTX-presentationer. Du kan antingen ladda ner API:et eller installera det med följande Maven-konfigurationer.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extrahera text från en PowerPoint-bild i Java

Följande är stegen för att extrahera text från en bild i en PowerPoint-presentation med Java.

Följande kodexempel visar hur man extraherar text från en PowerPoint-bild.

//Instatera PresentationEx-klass som representerar en PPTX-fil
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Få en array av ITextFrame-objekt från den första bilden
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Gå igenom arrayen av textramar
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Gå igenom stycken i nuvarande TextFrame
   for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Gå igenom delar i det aktuella stycket
       for (IPortion port : para.getPortions())
        {
            //Visa text i den aktuella delen
            System.out.println(port.getText());

            //Visa teckensnittshöjden på texten
            System.out.println(port.getPortionFormat().getFontHeight());

            //Visa teckensnittsnamnet på texten
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extrahera text från hela PowerPoint-presentationen

Du kan också extrahera text från hela PowerPoint-presentationen. Följande är stegen för att utföra denna operation.

Följande kodexempel visar hur man extraherar text från en PowerPoint-presentation.

//Instatera PresentationEx-klass som representerar en PPTX-fil
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Få en array av ITextFrame-objekt från den första bilden
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Gå igenom arrayen av textramar
for (int i = 0; i < textFrames.length; i++)
{
    //Gå igenom stycken i nuvarande TextFrame
   for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Gå igenom delar i det aktuella stycket
       for (IPortion port : para.getPortions())
        {
            //Visa text i den aktuella delen
            System.out.println(port.getText());
        }
    }
}

Skaffa en gratis API-licens

Om du vill använda API:t utan utvärderingsbegränsningar kan du skaffa en gratis tillfällig licens.

Prova online

Du kan också prova den kostnadsfria presentationstolken online, som är utvecklad med Aspose.Slides.

Slutsats

I den här artikeln har du lärt dig hur du extraherar text från PowerPoint-presentationer med Java. Kodexemplen har visat hur man extraherar text från en specifik bild eller hela presentationen. Du kan utforska mer om Aspose.Slides för Java med hjälp av dokumentation. Om du har några frågor, informera oss via vårt forum.

Se även