解析 PDF 文件時,您可能需要從文檔中提取圖像和文本。為了以編程方式執行此操作,本文介紹瞭如何使用 Java 從 PDF 文檔中提取圖像。分步指南連同 API 參考和代碼示例演示了完整的圖像提取過程。
從 PDF 中提取圖像的 Java API - 免費下載
為了從 PDF 中提取圖像,我們將使用 Aspose.PDF for Java。它是一個強大的 PDF 操作 API,提供了廣泛的功能來創建和處理 PDF 文件。您可以 下載 API 或使用以下 Maven 配置安裝它。
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>21.5</version>
</dependency>
在 Java 中從 PDF 中提取圖像
以下是使用 Java 從 PDF 文檔中提取圖像的步驟。
- 使用 Document 類加載 PDF 文檔。
- 遍歷 Document.getPages() 方法返回的文檔的頁面集合。
- 對於每個 Page,使用 Page.getResources().getImages() 方法遍歷它所具有的 XImage 的集合。
- 創建一個 FileOutputStream 的對象來保存每個圖像。
以下代碼示例顯示瞭如何從 PDF 文檔中提取圖像。
// 載入PDF文件
Document pdfDocument = new Document("ImagetoPDF.pdf");
// 循環瀏覽頁面
for (Page page : pdfDocument.getPages()) {
int imageCounter = 1;
// 循環圖像
for (XImage xImage : page.getResources().getImages()) {
try {
// 創建文件流
java.io.FileOutputStream outputImage = new java.io.FileOutputStream(
page.getNumber() + "_" + imageCounter + ".jpg");
// 保存輸出圖像
xImage.save(outputImage);
// 關閉流
outputImage.close();
} catch (java.io.FileNotFoundException e) {
// TODO:處理異常
e.printStackTrace();
} catch (java.io.IOException e) {
// TODO:處理異常
e.printStackTrace();
}
imageCounter++;
}
// 重置計數器
imageCounter=1;
}
Java PDF 圖像提取器 - 獲得免費許可證
你可以使用 Aspose.PDF for Java 而沒有使用臨時許可的評估限制。
結論
在各種情況下,需要從 PDF 文檔中提取圖像。為此,在本文中,您學習瞭如何使用 Java 從 PDF 文件中提取圖像。您可以使用 文檔 探索有關 Java PDF API 的更多信息。此外,您可以在我們的 論壇 上發布您的疑問。