Ao analisar os arquivos PDF, pode ser necessário extrair imagens junto com o texto dos documentos. Para realizar essa operação programaticamente, este artigo aborda como extrair imagens de documentos PDF em Java. O guia passo a passo, juntamente com referências de API e amostra de código, demonstram o procedimento completo de extração de imagem.
API Java para extrair imagens de PDF - Download grátis
Para extrair imagens de PDF, usaremos Aspose.PDF for Java. É uma poderosa API de manipulação de PDF que fornece uma ampla gama de recursos para criar e processar arquivos PDF. Você pode baixar a API ou instalá-la usando a seguinte configuração do Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>21.5</version>
</dependency>
Extraindo imagens de um PDF em Java
A seguir estão as etapas para extrair imagens de um documento PDF usando Java.
- Carregue o documento PDF usando a classe Document.
- Itere através da coleção de páginas do documento retornado pelo método Document.getPages().
- Para cada Page, percorra a coleção de XImage usando o método Page.getResources().getImages().
- Crie um objeto de FileOutputStream para salvar cada imagem.
O exemplo de código a seguir mostra como extrair imagens de um documento PDF.
// Carregar documento PDF
Document pdfDocument = new Document("ImagetoPDF.pdf");
// Percorrer as páginas
for (Page page : pdfDocument.getPages()) {
int imageCounter = 1;
// Percorrer as imagens
for (XImage xImage : page.getResources().getImages()) {
try {
// Criar fluxo de arquivos
java.io.FileOutputStream outputImage = new java.io.FileOutputStream(
page.getNumber() + "_" + imageCounter + ".jpg");
// Salvar imagem de saída
xImage.save(outputImage);
// Fechar o fluxo
outputImage.close();
} catch (java.io.FileNotFoundException e) {
// TODO: tratar exceção
e.printStackTrace();
} catch (java.io.IOException e) {
// TODO: tratar exceção
e.printStackTrace();
}
imageCounter++;
}
// Reiniciar contador
imageCounter=1;
}
Java PDF Image Extractor - Obtenha uma licença gratuita
Você pode usar o Aspose.PDF para Java sem limitações de avaliação usando uma licença temporária.
Conclusão
Em vários casos, as imagens precisam ser extraídas de documentos PDF. Para conseguir isso, neste artigo, você aprendeu como extrair imagens de arquivos PDF em Java. Você pode explorar mais sobre a API Java PDF usando a documentação. Além disso, você pode postar suas dúvidas em nosso fórum.