PDFファイルをJavaでXMLに変換する

XMLは、データ管理、Web、Officeツール、ドキュメントなど、さまざまな目的で使用される汎用性の高いマークアップ言語です。XMLはコンピュータープログラムでの処理に便利なため、PDFドキュメントは、コンテンツの構造化された表現を取得するためにXML形式に変換されることがよくあります。変換されたXMLは、PDFドキュメントを表すためにさまざまなタグを使用します。この記事では、JavaでプログラムによってPDFファイルをXMLに変換する方法を学習します。

PDFをXMLに変換するJavaAPI-無料ダウンロード

Aspose.PDF for Javaは、PDFの生成と操作のための強力なAPIです。 APIを使用すると、単純なレイアウトと複雑なレイアウトのPDFファイルをシームレスに作成、処理、および変換できます。この記事では、PDFからXMLへの変換にこのAPIを使用します。 APIのJARをダウンロードするか、次のMaven構成を使用してインストールできます。

リポジトリ:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>

依存:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-pdf</artifactId>
    <version>22.4</version>
</dependency>

JavaでPDFをXMLに変換する

Aspose.PDFは、PDFからXMLへの変換に関して次のXML標準をサポートしています。

  • MobiXML
  • PdfXML

変換されたXMLファイルには、上記の形式のいずれかを選択できます。それでは、Javaアプリケーション内でPDFからXMLへの変換を実行する方法を見ていきましょう。

JavaはPDFをMobiXMLに変換します

以下は、JavaでPDFをMobiXML形式に変換する手順です。

次のコードサンプルは、JavaでPDFをMobiXML形式に変換する方法を示しています。

// PDFドキュメントをロード
Document document = new Document("candy.pdf");

// MobiXML形式でドキュメントを保存
document.save("standard-xml-output.xml", SaveFormat.MobiXml);

JavaでPDFをPdfXMLに変換する

PDFをPdfXML形式に変換するには、Document.save(string, SaveFormat)メソッドの2番目のパラメーターとしてSaveFormat.PdfXmlを渡す必要があります。次のコードサンプルは、JavaでPDFをPdfXML形式に変換する方法を示しています。

// PDFドキュメントをロード
Document document = new Document("candy.pdf");

// MobiXML形式でドキュメントを保存
document.save("standard-xml-output.xml", SaveFormat.PdfXml);

Java PDF toXMLConverter-無料ライセンスを取得

評価の制限なしにAspose.PDFforJavaを使用するには、無料の一時ライセンスを取得できます。

結論

この記事では、JavaでPDFドキュメントをXMLに変換する方法を学びました。プログラムでPDFをMobiXMLまたはPdfXML形式に変換する方法を見てきました。さらに、ドキュメントにアクセスして、Aspose.PDFforJavaの詳細を読むことができます。ご不明な点やご質問がございましたら、フォーラムからお問い合わせください。

関連項目