När du analyserar PDF-filerna kan du behöva extrahera bilder tillsammans med text från dokumenten. För att utföra den här operationen programmatiskt beskriver den här artikeln hur man extraherar bilder från en PDF-fil i Java. Steg-för-steg-guiden tillsammans med API-referenser och kodexempel visar den kompletta bildextraktionsproceduren.
Java-bibliotek för att extrahera bilder från PDF
För att extrahera bilder från PDF använder vi Aspose.PDF för Java. Det är ett kraftfullt PDF-manipuleringsbibliotek som ger ett brett utbud av funktioner för att skapa och bearbeta PDF-filer. Du kan antingen ladda ner biblioteket eller installera det med följande Maven-konfiguration.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>22.12</version>
</dependency>
Hur man extraherar bilder från en PDF i Java
Följande är stegen som vi kommer att följa för att extrahera bilder från en PDF-fil.
- Ladda PDF-filen.
- Bläddra igenom sidorna i PDF:en.
- Extrahera bilder en efter en.
- Spara de extraherade bilderna.
Följande avsnitt visar hur man skriver kod för PDF-bildextraktion i Java.
Java PDF-bildextraktion
Följande är stegen för att extrahera bilder från ett PDF-dokument med Java.
- Ladda PDF-dokumentet med klassen Document.
- Iterera genom sidsamlingen för dokumentet som returneras med metoden Document.getPages().
- För varje Page, gå igenom samlingen av XImage den har med hjälp av metoden Page.getResources().getImages().
- Skapa ett objekt av FileOutputStream för att spara varje bild.
Följande kodexempel visar bildextraktion från en PDF-fil i Java.
// Ladda PDF-dokument
Document pdfDocument = new Document("ImagetoPDF.pdf");
// Bläddra igenom sidorna
for (Page page : pdfDocument.getPages()) {
int imageCounter = 1;
// Gå igenom bilder
for (XImage xImage : page.getResources().getImages()) {
try {
// Skapa filström
java.io.FileOutputStream outputImage = new java.io.FileOutputStream(
page.getNumber() + "_" + imageCounter + ".jpg");
// Spara utdatabild
xImage.save(outputImage);
// Stäng strömmen
outputImage.close();
} catch (java.io.FileNotFoundException e) {
// TODO: hantera undantag
e.printStackTrace();
} catch (java.io.IOException e) {
// TODO: hantera undantag
e.printStackTrace();
}
imageCounter++;
}
// Återställ räknaren
imageCounter=1;
}
Gratis Java PDF-bildextraktion
Du kan få en gratis tillfällig licens för att extrahera bilder från PDF utan några begränsningar.
Utforska Java PDF-bibliotek
Du kan utforska mer om Java PDF-biblioteket med hjälp av dokumentationen. Du kan också lägga upp dina frågor på vårt forum.
Slutsats
I olika fall krävs att bilder extraheras från PDF-dokument. Därför har du i den här artikeln lärt dig hur du extraherar bilder från PDF-filer i Java. Vi har visat hur enkelt det är att bearbeta en PDF-fil och sedan extrahera bilder i några enkla steg. Du kan enkelt integrera det medföljande kodexemplet i dina applikationer och utföra PDF-bildextrahering.