PDF 是将文档发送给第三方的最常用格式之一。这种流行背后的原因是 PDF 跨多个平台的兼容性,而不管任何硬件/软件要求。但是,在某些情况下,您可能希望将 PDF 文档转换为可编辑的文档格式。在这种情况下,PDF 到 DOC 或 DOCX 格式可能是优先转换选项。为了使转换过程自动化,本文展示了如何在 Java 中以编程方式将 PDF 转换为 Word DOC 和 DOCX。
因此,在本文中,您将了解如何:
- 使用 Java 将 PDF 转换为 DOC。
- 使用 Java 将 PDF 转换为 DOCX 格式。
- 自定义 PDF 到 Word (DOC/DOCX) 的转换。
Java PDF to Word DOC 转换器库
感谢 Aspose.PDF for Java - 一个 PDF 操作 Java API,它提供了将 PDF 文件转换为各种其他格式的简单方法,包括 PDF 到 DOC 和 PDF 到 DOCX。您可以 下载 并将 API 的 JAR 文件添加到您的项目或使用以下 Maven 配置引用它:
存储库:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
依赖:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>19.12</version>
</dependency>
在 Java 中将 PDF 转换为 DOC
在应用程序中引用 Aspose.PDF for Java 后,您可以通过几行代码将任何 PDF 文档转换为 DOC 格式。以下是执行此转换所需的步骤。
- 创建 Document 类的实例并使用输入 PDF 文件的路径对其进行初始化。
- 使用输出 DOC 文件的名称和 SaveFormat.Doc 参数调用 Document.save() 方法。
以下代码示例展示了如何在 Java 中将 PDF 转换为 DOC。
// 加载源 PDF 文件
Document doc = new Document("input.pdf");
// 保存生成的 DOC 文件
doc.save("output.doc", SaveFormat.Doc);
输入 PDF 文件
输出 Word 文档
在 Java 中将 PDF 转换为 DOCX
DOCX 是一种众所周知的 Word 文档格式,与 DOC 格式相比,DOCX 的结构基于二进制文件和 XML 文件。如果您想将 PDF 转换为 DOCX 格式,您可以使用 Document.save() 方法中的 SaveFormat.DocX 参数告诉 API 这样做。
以下代码示例展示了如何在 Java 中将 PDF 转换为 DOCX。
// 加载源 PDF 文件
Document doc = new Document("input.pdf");
// 保存生成的 DOCX 文件
doc.save("output.docx", SaveFormat.DocX);
带有附加选项的 Java PDF to Word
Aspose.PDF for Java 还提供了一些附加选项,您可以在 PDF 到 Word 的转换中使用,例如输出格式、图像分辨率、文本行之间的距离等。 DocSaveOptions 类用于此目的,以下是您可以使用的选项列表:
- 设置格式(整数值) - To set the output format (Doc, Docx, etc.).
- setAddReturnToLineEnd(布尔值) - To add the paragraph or line breaks.
- setImageResolutionX(int 值) - To set the X resolution for the images.
- setImageResolutionY(int 值) - To set the Y resolution for the images.
- setMaxDistanceBetweenTextLines(浮点值) - To group text lines into paragraphs.
- 设置模式(整数值) - To set recognition mode.
- setRecognizeBullets(布尔值) - To switch the recognition of bullets on.
- setRelativeHorizontalProximity(浮点值) - To set the width of space between different text elements in the input PDF file.
以下代码示例展示了如何使用 Java 将 DocSaveOptions 类用于 PDF 到 DOCX 的转换。
// 加载源 PDF 文件
Document doc = new Document("input.pdf");
// 实例化 DocSaveOptions 实例
DocSaveOptions saveOptions = new DocSaveOptions();
// 设置输出格式
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// 设置识别模式为 Flow
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);
// 将水平接近度设置为 2.5
saveOptions.setRelativeHorizontalProximity(2.5f);
// 在转换过程中启用项目符号识别
saveOptions.setRecognizeBullets(true);
// 保存生成的 DOCX 文件
doc.save("resultant.docx", saveOptions);
结论
在本文中,您了解了将 PDF 文档转换为 Java 中的 Word DOC 和 DOCX 是多么容易。您可以根据您的要求将 PDF 转换为 DOC 或 PDF 转换为 DOCX。此外,还讨论了自定义 PDF 到 Word DOC/DOCX 转换的附加功能。您可以从 文档 中了解有关将 PDF 转换为其他格式的更多信息。