Extraer texto de PowerPoint Java

Es posible que a menudo necesite extraer texto de las diapositivas de PowerPoint para realizar un análisis de texto. Por otro lado, es posible que desee extraer y guardar el texto en un archivo o base de datos para su posterior procesamiento. De acuerdo con eso, este artículo cubre cómo extraer texto de presentaciones de PowerPoint usando Java. En particular, aprenderá cómo extraer texto de una diapositiva específica o de una presentación completa.

API de Java para extraer texto de PowerPoint PPTX

Para manipular presentaciones de PowerPoint, Aspose ofrece Aspose.Slides for Java. Dicha API está diseñada para implementar funciones de automatización de PowerPoint en aplicaciones Java. También proporciona algunas formas sencillas de extraer texto de las presentaciones PPT/PPTX. Puede descargar la API o instalarla usando las siguientes configuraciones de Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Extraer texto de una diapositiva de PowerPoint en Java

Los siguientes son los pasos para extraer texto de una diapositiva en una presentación de PowerPoint usando Java.

El siguiente ejemplo de código muestra cómo extraer texto de una diapositiva de PowerPoint.

//Crear instancias de la clase PresentationEx que representa un archivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obtenga una matriz de objetos ITextFrame de la primera diapositiva
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Bucle a través de la matriz de TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Recorrer los párrafos en el TextFrame actual
    for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Bucle a través de porciones en el párrafo actual
        for (IPortion port : para.getPortions())
        {
            //Mostrar texto en la parte actual
            System.out.println(port.getText());

            //Mostrar la altura de la fuente del texto
            System.out.println(port.getPortionFormat().getFontHeight());

            //Mostrar el nombre de la fuente del texto
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Extraer texto de toda la presentación de PowerPoint

También puede extraer texto de toda la presentación de PowerPoint. Los siguientes son los pasos para realizar esta operación.

  • Cargue la presentación usando la clase Presentation.
  • Obtenga todos los marcos de texto en la presentación usando el método SlideUtil.getAllTextFrames().
  • Recorra cada ITextFrame y acceda a sus párrafos.
  • Acceda a las porciones de los párrafos e imprima su texto.

El siguiente ejemplo de código muestra cómo extraer texto de una presentación de PowerPoint.

//Crear instancias de la clase PresentationEx que representa un archivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Obtenga una matriz de objetos ITextFrame de la primera diapositiva
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Bucle a través de la matriz de TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Recorrer los párrafos en el TextFrame actual
    for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Bucle a través de porciones en el párrafo actual
        for (IPortion port : para.getPortions())
        {
            //Mostrar texto en la parte actual
            System.out.println(port.getText());
        }
    }
}

Obtenga una licencia de API gratuita

En caso de que desee utilizar la API sin limitaciones de evaluación, puede obtener una licencia temporal gratuita.

Prueba en línea

También puede probar el analizador de presentaciones en línea gratuito, que se desarrolla con Aspose.Slides.

Conclusión

En este artículo, ha aprendido a extraer texto de presentaciones de PowerPoint utilizando Java. Los ejemplos de código han mostrado cómo extraer texto de una diapositiva específica o de toda la presentación. Puede explorar más sobre Aspose.Slides for Java usando documentación. En caso de que tenga alguna consulta, infórmenos a través de nuestro foro.

Ver también