Es posible que a menudo necesite extraer texto de las diapositivas de PowerPoint para realizar un análisis de texto. Por otro lado, es posible que desee extraer y guardar el texto en un archivo o base de datos para su posterior procesamiento. De acuerdo con eso, este artículo cubre cómo extraer texto de presentaciones de PowerPoint usando Java. En particular, aprenderá cómo extraer texto de una diapositiva específica o de una presentación completa.
- API para extraer texto de PowerPoint PPTX
- Extraer texto de una diapositiva de PowerPoint
- Extraer texto de una presentación de PowerPoint
API de Java para extraer texto de PowerPoint PPTX
Para manipular presentaciones de PowerPoint, Aspose ofrece Aspose.Slides for Java. Dicha API está diseñada para implementar funciones de automatización de PowerPoint en aplicaciones Java. También proporciona algunas formas sencillas de extraer texto de las presentaciones PPT/PPTX. Puede descargar la API o instalarla usando las siguientes configuraciones de Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-slides</artifactId>
<version>21.7</version>
<classifier>jdk16</classifier>
</dependency>
Extraer texto de una diapositiva de PowerPoint en Java
Los siguientes son los pasos para extraer texto de una diapositiva en una presentación de PowerPoint usando Java.
- Cargue la presentación usando la clase Presentation.
- Obtenga todos los marcos de texto de una diapositiva en la matriz ITextFrame usando el método SlideUtil.getAllTextBoxes().
- Recorra cada ITextFrame y acceda a su texto usando el método ITextFrame.getParagraphs().
- Recuperar e imprimir texto de cada IPorción del párrafo.
El siguiente ejemplo de código muestra cómo extraer texto de una diapositiva de PowerPoint.
//Crear instancias de la clase PresentationEx que representa un archivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");
//Obtenga una matriz de objetos ITextFrame de la primera diapositiva
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));
//Bucle a través de la matriz de TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
//Recorrer los párrafos en el TextFrame actual
for (IParagraph para : textFramesSlideOne[i].getParagraphs())
{
//Bucle a través de porciones en el párrafo actual
for (IPortion port : para.getPortions())
{
//Mostrar texto en la parte actual
System.out.println(port.getText());
//Mostrar la altura de la fuente del texto
System.out.println(port.getPortionFormat().getFontHeight());
//Mostrar el nombre de la fuente del texto
System.out.println(port.getPortionFormat().getLatinFont().getFontName());
}
}
}
Extraer texto de toda la presentación de PowerPoint
También puede extraer texto de toda la presentación de PowerPoint. Los siguientes son los pasos para realizar esta operación.
- Cargue la presentación usando la clase Presentation.
- Obtenga todos los marcos de texto en la presentación usando el método SlideUtil.getAllTextFrames().
- Recorra cada ITextFrame y acceda a sus párrafos.
- Acceda a las porciones de los párrafos e imprima su texto.
El siguiente ejemplo de código muestra cómo extraer texto de una presentación de PowerPoint.
//Crear instancias de la clase PresentationEx que representa un archivo PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");
//Obtenga una matriz de objetos ITextFrame de la primera diapositiva
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);
//Bucle a través de la matriz de TextFrames
for (int i = 0; i < textFrames.length; i++)
{
//Recorrer los párrafos en el TextFrame actual
for (IParagraph para : textFrames[i].getParagraphs())
{
//Bucle a través de porciones en el párrafo actual
for (IPortion port : para.getPortions())
{
//Mostrar texto en la parte actual
System.out.println(port.getText());
}
}
}
Obtenga una licencia de API gratuita
En caso de que desee utilizar la API sin limitaciones de evaluación, puede obtener una licencia temporal gratuita.
Prueba en línea
También puede probar el analizador de presentaciones en línea gratuito, que se desarrolla con Aspose.Slides.
Conclusión
En este artículo, ha aprendido a extraer texto de presentaciones de PowerPoint utilizando Java. Los ejemplos de código han mostrado cómo extraer texto de una diapositiva específica o de toda la presentación. Puede explorar más sobre Aspose.Slides for Java usando documentación. En caso de que tenga alguna consulta, infórmenos a través de nuestro foro.