XMLは、データ管理、Web、Officeツール、ドキュメントなど、さまざまな目的で使用される汎用性の高いマークアップ言語です。XMLはコンピュータープログラムでの処理に便利なため、PDFドキュメントは、コンテンツの構造化された表現を取得するためにXML形式に変換されることがよくあります。変換されたXMLは、PDFドキュメントを表すためにさまざまなタグを使用します。この記事では、JavaでプログラムによってPDFファイルをXMLに変換する方法を学習します。
PDFをXMLに変換するJavaAPI-無料ダウンロード
Aspose.PDF for Javaは、PDFの生成と操作のための強力なAPIです。 APIを使用すると、単純なレイアウトと複雑なレイアウトのPDFファイルをシームレスに作成、処理、および変換できます。この記事では、PDFからXMLへの変換にこのAPIを使用します。 APIのJARをダウンロードするか、次のMaven構成を使用してインストールできます。
リポジトリ:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
依存:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>22.4</version>
</dependency>
JavaでPDFをXMLに変換する
Aspose.PDFは、PDFからXMLへの変換に関して次のXML標準をサポートしています。
- MobiXML
- PdfXML
変換されたXMLファイルには、上記の形式のいずれかを選択できます。それでは、Javaアプリケーション内でPDFからXMLへの変換を実行する方法を見ていきましょう。
JavaはPDFをMobiXMLに変換します
以下は、JavaでPDFをMobiXML形式に変換する手順です。
- Documentクラスを使用してPDFドキュメントをロードします。
- Document.save(string, SaveFormat)メソッドを使用してPDFをXMLに変換し、2番目のパラメーターとしてSaveFormat.MobiXmlを渡します。
次のコードサンプルは、JavaでPDFをMobiXML形式に変換する方法を示しています。
// PDFドキュメントをロード
Document document = new Document("candy.pdf");
// MobiXML形式でドキュメントを保存
document.save("standard-xml-output.xml", SaveFormat.MobiXml);
JavaでPDFをPdfXMLに変換する
PDFをPdfXML形式に変換するには、Document.save(string, SaveFormat)メソッドの2番目のパラメーターとしてSaveFormat.PdfXmlを渡す必要があります。次のコードサンプルは、JavaでPDFをPdfXML形式に変換する方法を示しています。
// PDFドキュメントをロード
Document document = new Document("candy.pdf");
// MobiXML形式でドキュメントを保存
document.save("standard-xml-output.xml", SaveFormat.PdfXml);
Java PDF toXMLConverter-無料ライセンスを取得
評価の制限なしにAspose.PDFforJavaを使用するには、無料の一時ライセンスを取得できます。
結論
この記事では、JavaでPDFドキュメントをXMLに変換する方法を学びました。プログラムでPDFをMobiXMLまたはPdfXML形式に変換する方法を見てきました。さらに、ドキュメントにアクセスして、Aspose.PDFforJavaの詳細を読むことができます。ご不明な点やご質問がございましたら、フォーラムからお問い合わせください。