Při analýze souborů PDF možná budete muset extrahovat obrázky spolu s textem z dokumentů. Chcete-li tuto operaci provést programově, tento článek popisuje, jak extrahovat obrázky z PDF v Javě. Průvodce krok za krokem spolu s referencemi API a ukázkou kódu demonstruje kompletní postup extrakce obrázku.
Java knihovna pro extrahování obrázků z PDF
K extrahování obrázků z PDF použijeme Aspose.PDF for Java. Je to výkonná knihovna pro manipulaci s PDF, která poskytuje širokou škálu funkcí pro vytváření a zpracování souborů PDF. Knihovnu si můžete buď stáhnout, nebo ji nainstalovat pomocí následující konfigurace Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>22.12</version>
</dependency>
Jak extrahovat obrázky z PDF v Javě
Níže jsou uvedeny kroky, které budeme dodržovat při extrahování obrázků ze souboru PDF.
- Načtěte soubor PDF.
- Procházejte stránky v PDF.
- Extrahujte obrázky jeden po druhém.
- Uložte extrahované obrázky.
Následující část ukazuje, jak napsat kód pro extrakci obrázků PDF v Javě.
Extrakce Java PDF obrázků
Níže jsou uvedeny kroky k extrahování obrázků z dokumentu PDF pomocí Java.
- Načtěte dokument PDF pomocí třídy Document.
- Iterujte kolekci stránek dokumentu vráceného metodou Document.getPages().
- Pro každou Page projděte kolekci XImage, kterou má, pomocí metody Page.getResources().getImages().
- Pro uložení každého obrázku vytvořte objekt FileOutputStream.
Následující ukázka kódu ukazuje extrakci obrázku z PDF v Javě.
// Načíst dokument PDF
Document pdfDocument = new Document("ImagetoPDF.pdf");
// Procházet stránky
for (Page page : pdfDocument.getPages()) {
int imageCounter = 1;
// Procházet obrázky
for (XImage xImage : page.getResources().getImages()) {
try {
// Vytvořit datový proud souborů
java.io.FileOutputStream outputImage = new java.io.FileOutputStream(
page.getNumber() + "_" + imageCounter + ".jpg");
// Uložit výstupní obrázek
xImage.save(outputImage);
// Zavřete stream
outputImage.close();
} catch (java.io.FileNotFoundException e) {
// TODO: zpracování výjimky
e.printStackTrace();
} catch (java.io.IOException e) {
// TODO: zpracování výjimky
e.printStackTrace();
}
imageCounter++;
}
// Vynulovat počítadlo
imageCounter=1;
}
Zdarma Java extrakce PDF obrázků
Můžete získat bezplatnou dočasnou licenci pro extrahování obrázků z PDF bez jakýchkoli omezení.
Prozkoumejte Java PDF Library
Více o knihovně Java PDF můžete prozkoumat pomocí dokumentace. Své dotazy můžete také zveřejňovat na našem fóru.
Závěr
V různých případech je nutné extrahovat obrázky z dokumentů PDF. Proto jste se v tomto článku naučili, jak extrahovat obrázky ze souborů PDF v Javě. Ukázali jsme, jak snadné je zpracovat soubor PDF a poté extrahovat obrázky v několika jednoduchých krocích. Poskytnutý ukázkový kód můžete snadno integrovat do svých aplikací a provádět extrakci obrázků PDF.