XMLは、HTMLに似た有名なマークアップ言語です。ただし、その用途は、データ管理、Web、Officeツール、ドキュメントなどの複数のドメインに広がっています。特定の場合、PDFドキュメントはXMLファイルに変換され、コンテンツの構造化された表現を取得します。したがって、PDFドキュメントのタグベースの表現は、さまざまな目的でより便利に処理できます。したがって、この記事では、C#.NETでプログラムによってPDFファイルをXMLに変換する方法を学習します。
PDFをXMLに変換するC#.NET API-無料ダウンロード
PDFからXMLへの変換には、Aspose.PDF for .NETを使用します。これは、.NETアプリケーション内からPDFファイルを作成および処理できるようにする人気のあるAPIです。さらに、PDFファイルを他の形式に変換するための忠実度の高いコンバーターを提供します。 APIのバイナリをダウンロードするか、NuGetを使用してインストールできます。
PM> Install-Package Aspose.PDF
PDFをC#でXMLに変換する
Aspose.PDF for .NETを使用すると、PDFドキュメントを次のXML標準に変換できます。
- MobiXML
- PdfXML
Aspose.PDF for .NETを使用して、PDFを上記の各XML形式に変換する方法を見てみましょう。
C#PDFからMobiXMLへ
以下は、C#でPDFをMobiXML形式に変換する手順です。
- Documentクラスを使用してPDFドキュメントをロードします。
- Document.Save(string, SaveFormat)メソッドを使用してPDFをXMLに変換し、2番目のパラメーターとしてSaveFormat.MobiXmlを渡します。
次のコードサンプルは、C#でMobiXML形式を使用してPDFをXMLに変換する方法を示しています。
// PDFドキュメントをロード
var document = new Document("candy.pdf");
// MobiXML形式でドキュメントを保存
document.Save("standard-xml-output.xml", SaveFormat.MobiXml);
C#.NETでのPDFからPdfXMLへ
PDFをPdfXML形式に変換するには、Document.Save(string, SaveFormat)メソッドの2番目のパラメーターとしてSaveFormat.PdfXmlを渡す必要があります。次のコードサンプルは、C#でPDFをPdfXML形式に変換する方法を示しています。
// PDFドキュメントをロード
var document = new Document("candy.pdf");
// ドキュメントをPdfXML形式で保存する
document.Save("standard-xml-output.xml", SaveFormat.PdfXml);
C#PDF toXMLConverter-無料ライセンスを取得
評価の制限なしにAspose.PDF for .NETを使用するには、無料の一時ライセンスを取得できます。
結論
この記事では、C#でPDFドキュメントをXMLに変換する方法を学びました。さらに、PDFをプログラムでMobiXMLまたはPdfXML形式に変換する方法についても明示的に説明しました。さらに、ドキュメントを使用して、.NETPDFAPIの詳細を調べることができます。ご不明な点やご質問がございましたら、フォーラムからお問い合わせください。