PDFからテキストを抽出するC#

PDF形式は、共有および印刷用の読み取り専用ドキュメントを作成するために広く使用されています。通常、PDFドキュメントにはテキストとともに画像が含まれており、場合によっては、PDFの解析中にこれらの画像を抽出する必要があります。これに従って、この記事では、C#.NETでプログラムによってPDFから画像を抽出する方法について説明します。

PDFから画像を抽出するC#.NET API-無料ダウンロード

PDFから画像を抽出するために、Aspose.PDF for .NETを使用します。これは、さまざまなPDF生成および操作機能を実装できる強力なAPIです。さらに、PDFを解析し、画像をシームレスに抽出することができます。 APIをダウンロードするか、NuGetを使用してインストールできます。

PM> Install-Package Aspose.PDF

C#でPDFから画像を抽出する

以下は、C#でPDFから画像を抽出する手順です。

  • Documentクラスを使用してドキュメントをロードします。
  • Document.Pagesコレクションを使用して、PDFドキュメントのページをループします。
  • ページごとに、Page.Resources.Imagesコレクション内のすべてのXImageにアクセスします。
  • 画像ごとにFileStreamオブジェクトを作成し、JPEG、PNGなどで保存します。
  • 最後に、FileStreamを閉じます。

次のコードサンプルは、PDFから画像を抽出する方法を示しています。

// ドキュメントを開く
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// ページをループする
foreach (var page in pdfDocument.Pages)
{
    // すべての画像をループする
    foreach (XImage image in page.Resources.Images)
    {
        // 画像のファイルストリームを作成する
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // 出力画像を保存する
        image.Save(outputImage, ImageFormat.Jpeg);

        // ストリームを閉じる
        outputImage.Close();

        imageCounter++;
    }

    // カウンターをリセット
    imageCounter = 1;
}

無料ライセンスを取得する

一時ライセンスを使用すると、評価の制限なしにAspose.PDF for .NETを使用できます。

結論

さまざまな場合に、PDFファイルの解析とテキストまたは画像の抽出が必要になる可能性があります。この記事では、C#でプログラムによってPDFファイルから画像を抽出する方法を学びました。 ドキュメントを使用して、C#PDFAPIの詳細を調べることができます。また、フォーラムに質問を投稿することもできます。

関連項目