Extrahujte text z PowerPoint Java

Často budete muset extrahovat text ze snímků aplikace PowerPoint, abyste mohli provést analýzu textu. Na druhou stranu můžete chtít extrahovat a uložit text do souboru nebo databáze pro další zpracování. V souladu s tím tento článek popisuje, jak extrahovat text z prezentací PowerPoint pomocí Java. Zejména se naučíte, jak extrahovat text z konkrétního snímku nebo celé prezentace.

Java API pro extrahování textu z PowerPoint PPTX

Aby bylo možné manipulovat s prezentacemi v PowerPointu, Aspose nabízí Aspose.Slides for Java. Uvedené API je navrženo pro implementaci funkcí automatizace PowerPointu v aplikacích Java. Poskytuje také několik jednoduchých způsobů extrahování textu z prezentací PPT/PPTX. Rozhraní API si můžete buď stáhnout, nebo jej nainstalovat pomocí následujících konfigurací Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extrahujte text z PowerPoint Slide v Javě

Následují kroky k extrahování textu ze snímku v prezentaci PowerPoint pomocí Java.

Následující ukázka kódu ukazuje, jak extrahovat text ze snímku aplikace PowerPoint.

//Instatiate PresentationEx třídu, která představuje soubor PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Získejte pole objektů ITextFrame z prvního snímku
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Procházejte polem TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Procházet odstavce v aktuálním TextFrame
   for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Procházejte části v aktuálním odstavci
       for (IPortion port : para.getPortions())
        {
            //Zobrazit text v aktuální části
            System.out.println(port.getText());

            //Zobrazení výšky písma textu
            System.out.println(port.getPortionFormat().getFontHeight());

            //Zobrazit název písma textu
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extrahujte text z celé prezentace v PowerPointu

Můžete také extrahovat text z celé prezentace PowerPoint. Následují kroky k provedení této operace.

  • Načtěte prezentaci pomocí třídy Presentation.
  • Získejte všechny textové rámečky v prezentaci pomocí metody SlideUtil.getAllTextFrames().
  • Projděte každý ITextFrame a získejte přístup k jeho odstavcům.
  • Přístup k částem odstavců a tisk jejich textu.

Následující ukázka kódu ukazuje, jak extrahovat text z prezentace PowerPoint.

//Instatiate PresentationEx třídu, která představuje soubor PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Získejte pole objektů ITextFrame z prvního snímku
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Procházejte polem TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Procházet odstavce v aktuálním TextFrame
   for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Procházejte části v aktuálním odstavci
       for (IPortion port : para.getPortions())
        {
            //Zobrazit text v aktuální části
            System.out.println(port.getText());
        }
    }
}

Získejte bezplatnou licenci API

V případě, že chcete používat API bez omezení hodnocení, můžete získat bezplatnou dočasnou licenci.

Vyzkoušejte online

Můžete také vyzkoušet bezplatný online analyzátor prezentací, který je vyvinut pomocí Aspose.Slides.

Závěr

V tomto článku jste se naučili extrahovat text z prezentací PowerPoint pomocí Java. Ukázky kódu ukázaly, jak extrahovat text z konkrétního snímku nebo celé prezentace. Více o Aspose.Slides for Java můžete prozkoumat pomocí dokumentace. V případě jakýchkoliv dotazů nás informujte prostřednictvím našeho fóra.

Viz také