PDF 是將文檔發送給第三方最常用的格式之一。這種流行背後的原因是 PDF 跨多個平台的兼容性,無論任何硬件/軟件要求如何。但是,在某些情況下,您可能希望將 PDF 文檔轉換為可編輯的文檔格式。在這種情況下,PDF 到 DOC 或 DOCX 格式可能是優先轉換選項。為了自動化轉換過程,本文展示瞭如何在 Java 中以編程方式將 PDF 轉換為 Word DOC 和 DOCX。
因此,在本文中,您將了解如何:
- 使用 Java 將 PDF 轉換為 DOC。
- 使用 Java 將 PDF 轉換為 DOCX 格式。
- 自定義 PDF 到 Word (DOC/DOCX) 的轉換。
Java PDF 到 Word DOC 轉換器庫
感謝 Aspose.PDF for Java - 一個 PDF 操作 Java API,它提供了將 PDF 文件轉換為各種其他格式(包括 PDF 到 DOC 和 PDF 到 DOCX)的簡單方法。您可以下載 並將 API 的 JAR 文件添加到您的項目或使用以下 Maven 配置引用它:
存儲庫:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
依賴:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>19.12</version>
</dependency>
在 Java 中將 PDF 轉換為 DOC
一旦您在您的應用程序中引用了 Aspose.PDF for Java,您就可以通過幾行代碼將任何 PDF 文檔轉換為 DOC 格式。以下是執行此轉換所需的步驟。
- 創建 Document 類的實例並使用輸入 PDF 文件的路徑對其進行初始化。
- 使用輸出 DOC 文件的名稱和 SaveFormat.Doc 參數調用 Document.save() 方法。
以下代碼示例顯示瞭如何在 Java 中將 PDF 轉換為 DOC。
// 加載源 PDF 文件
Document doc = new Document("input.pdf");
// 保存生成的 DOC 文件
doc.save("output.doc", SaveFormat.Doc);
輸入PDF文檔
輸出Word文檔
在 Java 中將 PDF 轉換為 DOCX
DOCX 是一種眾所周知的 Word 文檔格式,與 DOC 格式相比,DOCX 的結構基於二進製文件和 XML 文件。如果您想將 PDF 轉換為 DOCX 格式,您可以使用 Document.save() 方法中的 SaveFormat.DocX 參數告訴 API 這樣做。
以下代碼示例顯示瞭如何在 Java 中將 PDF 轉換為 DOCX。
// 加載源 PDF 文件
Document doc = new Document("input.pdf");
// 保存生成的 DOCX 文件
doc.save("output.docx", SaveFormat.DocX);
帶有附加選項的 Java PDF 到 Word
Aspose.PDF for Java 還提供了一些額外的選項,您可以在 PDF 到 Word 的轉換中使用這些選項,例如輸出格式、圖像分辨率、文本行之間的距離等。 DocSaveOptions 類用於此目的,以下是您可以使用的選項列表:
- 設置格式(整數值) - To set the output format (Doc, Docx, etc.).
- setAddReturnToLineEnd(布爾值) - To add the paragraph or line breaks.
- setImageResolutionX(整數值) - To set the X resolution for the images.
- setImageResolutionY(int 值) - To set the Y resolution for the images.
- setMaxDistanceBetweenTextLines(浮點值) - To group text lines into paragraphs.
- 設置模式(整數值) - To set recognition mode.
- setRecognizeBullets(布爾值) - To switch the recognition of bullets on.
- setRelativeHorizontalProximity(浮點值) - To set the width of space between different text elements in the input PDF file.
以下代碼示例顯示瞭如何使用 Java 在 PDF 到 DOCX 轉換中使用 DocSaveOptions 類。
// 加載源 PDF 文件
Document doc = new Document("input.pdf");
// 實例化 DocSaveOptions 實例
DocSaveOptions saveOptions = new DocSaveOptions();
// 設置輸出格式
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// 設置識別模式為Flow
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);
// 將水平接近度設置為 2.5
saveOptions.setRelativeHorizontalProximity(2.5f);
// 在轉換過程中啟用子彈識別
saveOptions.setRecognizeBullets(true);
// 保存生成的 DOCX 文件
doc.save("resultant.docx", saveOptions);
結論
在本文中,您了解了使用 Java 將 PDF 文檔轉換為 Word DOC 和 DOCX 是多麼容易。您可以根據需要將 PDF 轉換為 DOC 或將 PDF 轉換為 DOCX。此外,還討論了自定義 PDF 到 Word DOC/DOCX 轉換的其他功能。您可以從 文檔 了解有關將 PDF 轉換為其他格式的更多信息。