XML 是一种通用的标记语言,可用于多种用途,例如数据管理、Web、Office 工具、文档等。由于 XML 便于计算机程序处理,因此 PDF文档通常被转换为 XML 格式以获得内容的结构化表示。转换后的 XML 使用不同的标签来表示 PDF 文档。在本文中,您将学习如何使用 Java 以编程方式将 PDF 文件转换为 XML。
用于将 PDF 转换为 XML 的 Java API - 免费下载
Aspose.PDF for Java 是用于 PDF 生成和操作的强大 API。使用 API,您可以无缝地创建、处理和转换简单和复杂布局的 PDF 文件。在本文中,我们将使用此 API 进行 PDF 到 XML 的转换。您可以下载 API 的 JAR 或使用以下 Maven 配置安装它。
存储库:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
依赖:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>22.4</version>
</dependency>
在 Java 中将 PDF 转换为 XML
Aspose.PDF 支持以下用于 PDF 到 XML 转换的 XML 标准:
- 移动XML
- PdfXML
您可以为转换后的 XML 文件选择上述任何一种格式。因此,让我们继续看看如何在 Java 应用程序中执行 PDF 到 XML 的转换。
Java 将 PDF 转换为 MobiXML
以下是在 Java 中将 PDF 转换为 MobiXML 格式的步骤。
- 使用 Document 类加载 PDF 文档。
- 使用 Document.save(string, SaveFormat) 方法将 PDF 转换为 XML,并将 SaveFormat.MobiXml 作为第二个参数传递。
以下代码示例展示了如何在 Java 中将 PDF 转换为 MobiXML 格式。
// 加载 PDF 文档
Document document = new Document("candy.pdf");
// 以 MobiXML 格式保存文档
document.save("standard-xml-output.xml", SaveFormat.MobiXml);
在 Java 中将 PDF 转换为 PdfXML
要将 PDF 转换为 PdfXML 格式,您需要传递 SaveFormat.PdfXml 作为 Document.save(string, SaveFormat) 方法的第二个参数。以下代码示例展示了如何在 Java 中将 PDF 转换为 PdfXML 格式。
// 加载 PDF 文档
Document document = new Document("candy.pdf");
// 以 MobiXML 格式保存文档
document.save("standard-xml-output.xml", SaveFormat.PdfXml);
Java PDF to XML Converter - 获得免费许可证
您可以获得免费的临时许可证 以便在没有评估限制的情况下使用 Aspose.PDF for Java。
结论
在本文中,您学习了如何在 Java 中将 PDF 文档转换为 XML。您已经了解了如何以编程方式将 PDF 转换为 MobiXML 或 PdfXML 格式。此外,您可以访问 文档 以阅读有关 Aspose.PDF for Java 的更多信息。如果您有任何问题或疑问,可以通过我们的 论坛 与我们联系。