Mientras analiza los archivos PDF, es posible que deba extraer imágenes junto con el texto de los documentos. Para realizar esta operación mediante programación, este artículo explica cómo extraer imágenes de documentos PDF en Java. La guía paso a paso junto con las referencias de la API y el ejemplo de código demuestran el procedimiento completo de extracción de imágenes.
API de Java para extraer imágenes de PDF - Descarga gratuita
Para extraer imágenes de PDF, usaremos Aspose.PDF for Java. Es una potente API de manipulación de PDF que proporciona una amplia gama de funciones para crear y procesar archivos PDF. Puede descargar la API o instalarla usando la siguiente configuración de Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>21.5</version>
</dependency>
Extraer imágenes de un PDF en Java
Los siguientes son los pasos para extraer imágenes de un documento PDF usando Java.
- Cargue el documento PDF utilizando la clase Document.
- Iterar a través de la colección de páginas del documento devuelto por el método Document.getPages().
- Para cada Página, recorra la colección de XImage que tiene utilizando el método Page.getResources().getImages().
- Cree un objeto de FileOutputStream para guardar cada imagen.
El siguiente ejemplo de código muestra cómo extraer imágenes de un documento PDF.
// Cargar documento PDF
Document pdfDocument = new Document("ImagetoPDF.pdf");
// Bucle a través de las páginas
for (Page page : pdfDocument.getPages()) {
int imageCounter = 1;
// Bucle a través de imágenes
for (XImage xImage : page.getResources().getImages()) {
try {
// Crear secuencia de archivos
java.io.FileOutputStream outputImage = new java.io.FileOutputStream(
page.getNumber() + "_" + imageCounter + ".jpg");
// Guardar imagen de salida
xImage.save(outputImage);
// Cierra la corriente
outputImage.close();
} catch (java.io.FileNotFoundException e) {
// TODO: manejar la excepción
e.printStackTrace();
} catch (java.io.IOException e) {
// TODO: manejar la excepción
e.printStackTrace();
}
imageCounter++;
}
// Reiniciar contador
imageCounter=1;
}
Extractor de imágenes PDF de Java: obtenga una licencia gratuita
Puede usar Aspose.PDF for Java sin limitaciones de evaluación usando una licencia temporal.
Conclusión
En varios casos, se requiere que las imágenes se extraigan de documentos PDF. Para conseguirlo, en este artículo has aprendido a extraer imágenes de archivos PDF en Java. Puede explorar más sobre la API PDF de Java utilizando la documentación. Además, puede publicar sus consultas en nuestro foro.