Extrair texto do PowerPoint Java

Muitas vezes, você pode precisar extrair texto dos slides do PowerPoint para realizar a análise de texto. Por outro lado, você pode extrair e salvar o texto em um arquivo ou banco de dados para processamento posterior. De acordo com isso, este artigo aborda como extrair texto de apresentações do PowerPoint usando Java. Particularmente, você aprenderá como extrair texto de um slide específico ou de uma apresentação inteira.

API Java para extrair texto do PowerPoint PPTX

Para manipular apresentações em PowerPoint, o Aspose oferece Aspose.Slides for Java. A referida API foi projetada para implementar recursos de automação do PowerPoint em aplicativos Java. Ele também fornece algumas maneiras simples de extrair texto das apresentações PPT/PPTX. Você pode baixar a API ou instalá-la usando as seguintes configurações do Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extrair texto de um slide do PowerPoint em Java

A seguir estão as etapas para extrair texto de um slide em uma apresentação do PowerPoint usando Java.

O exemplo de código a seguir mostra como extrair texto de um slide do PowerPoint.

//Instanciar a classe PresentationEx que representa um arquivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obter uma matriz de objetos ITextFrame do primeiro slide
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Percorrer a matriz de TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Percorrer os parágrafos no TextFrame atual
    for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Percorrer porções no parágrafo atual
        for (IPortion port : para.getPortions())
        {
            //Exibir texto na parte atual
            System.out.println(port.getText());

            //Exibir a altura da fonte do texto
            System.out.println(port.getPortionFormat().getFontHeight());

            //Exibir o nome da fonte do texto
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extrair texto de toda a apresentação do PowerPoint

Você também pode extrair texto de toda a apresentação do PowerPoint. A seguir estão as etapas para realizar esta operação.

O exemplo de código a seguir mostra como extrair texto de uma apresentação do PowerPoint.

//Instanciar a classe PresentationEx que representa um arquivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obter uma matriz de objetos ITextFrame do primeiro slide
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Percorrer a matriz de TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Percorrer os parágrafos no TextFrame atual
    for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Percorrer porções no parágrafo atual
        for (IPortion port : para.getPortions())
        {
            //Exibir texto na parte atual
            System.out.println(port.getText());
        }
    }
}

Obtenha uma licença de API gratuita

Caso você queira usar a API sem limitações de avaliação, você pode obter uma licença temporária gratuita.

Experimente on-line

Você também pode experimentar o analisador de apresentação online gratuito, desenvolvido usando o Aspose.Slides.

Conclusão

Neste artigo, você aprendeu como extrair texto de apresentações do PowerPoint usando Java. Os exemplos de código mostraram como extrair texto de um slide específico ou de toda a apresentação. Você pode explorar mais sobre o Aspose.Slides for Java usando documentação. Caso você tenha alguma dúvida, informe-nos através do nosso fórum.

Veja também