استخراج متن از PDF C#

فرمت PDF به طور گسترده برای ایجاد اسناد فقط خواندنی برای اشتراک‌گذاری و چاپ استفاده می‌شود. به طور کلی، اسناد PDF حاوی تصاویر همراه با متن هستند و در موارد خاص، ممکن است نیاز به استخراج این تصاویر در حین تجزیه PDF داشته باشید. مطابق با آن، این مقاله نحوه استخراج تصاویر از PDF به صورت برنامه‌ریزی شده در C#.NET را پوشش می‌دهد.

C# .NET API برای استخراج تصاویر از PDF - دانلود رایگان

برای استخراج تصاویر از PDF، از Aspose.PDF برای دات نت استفاده می کنیم. این یک API قدرتمند است که به شما امکان می دهد طیف گسترده ای از ویژگی های تولید و دستکاری PDF را پیاده سازی کنید. علاوه بر این، به شما این امکان را می دهد که PDF را تجزیه کنید و تصاویر را یکپارچه استخراج کنید. می‌توانید API را دانلود یا با استفاده از NuGet نصب کنید.

PM> Install-Package Aspose.PDF

استخراج تصاویر از PDF در سی شارپ

در زیر مراحل استخراج تصاویر از PDF در سی شارپ آمده است.

  • سند را با استفاده از کلاس Document بارگیری کنید.
  • با استفاده از مجموعه Document.Pages صفحات سند PDF را حلقه بزنید.
  • برای هر صفحه، به هر XImage در مجموعه Page.Resources.Images دسترسی داشته باشید.
  • برای هر تصویر یک شی FileStream ایجاد کنید و آن را به صورت JPEG، PNG و غیره ذخیره کنید.
  • در نهایت FileStream را ببندید.

نمونه کد زیر نحوه استخراج تصاویر از PDF را نشان می دهد.

// سند را باز کنید
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// از طریق صفحات حلقه بزنید
foreach (var page in pdfDocument.Pages)
{
    // تمام تصاویر را حلقه بزنید
    foreach (XImage image in page.Resources.Images)
    {
        // ایجاد جریان فایل برای تصویر
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // ذخیره تصویر خروجی
        image.Save(outputImage, ImageFormat.Jpeg);

        // بستن جریان
        outputImage.Close();

        imageCounter++;
    }

    // تنظیم مجدد شمارنده
    imageCounter = 1;
}

مجوز رایگان دریافت کنید

شما می توانید از Aspose.PDF برای دات نت بدون محدودیت ارزیابی با استفاده از مجوز موقت استفاده کنید.

نتیجه

تجزیه فایل های PDF و استخراج متن یا تصاویر ممکن است در موارد مختلف مورد نیاز باشد. در این مقاله نحوه استخراج تصاویر از فایل های پی دی اف به صورت برنامه نویسی در سی شارپ را آموختید. می‌توانید با استفاده از مستندات درباره C# PDF API بیشتر کاوش کنید. همچنین، می‌توانید سوالات خود را در [فروم 12 ما ارسال کنید.

همچنین ببینید