اسکن پی دی اف به متن csharp

یک فایل پی دی اف اسکن شده اساساً یک یا چند تصویر مسطح است که توسط اسکنر یا دوربین گرفته شده است. شما نمی توانید اطلاعات چنین فایل هایی را کپی، جایگذاری یا پردازش کنید. این مقاله نحوه تبدیل PDF اسکن شده به متن در سی شارپ را پوشش می دهد.

تبدیل PDF اسکن شده به متن - نصب API C#

Aspose.OCR for .NET API برای انجام عملیات OCR استفاده می شود. می تواند کاراکترها را به صورت نوری از تصاویر یا اسناد PDF اسکن شده تشخیص دهد. لطفاً API را با دانلود فایل DLL از بخش New Releases یا با دستور نصب زیر NuGet پیکربندی کنید.

PM> Install-Package Aspose.OCR

تبدیل پی دی اف اسکن شده به رشته متنی در سی شارپ

شما می توانید یک فایل PDF اسکن شده را با انجام عملیات OCR روی آن به یک رشته متن تبدیل کنید. برای چاپ متن از یک سند PDF اسکن شده باید مراحل زیر را دنبال کنید:

  1. تنظیم برای تشخیص فایل پی دی اف اسکن شده را مشخص کنید.
  2. نمونه کلاس AsposeOcr را راه اندازی کنید.
  3. شیء کلاس RecognitionResult را راه اندازی کنید.
  4. متن را پس از تشخیص آن از یک PDF اسکن شده چاپ کنید.

قطعه کد زیر نحوه تشخیص متن از PDF اسکن شده در سی شارپ را نشان می دهد:

// نمونه کلاس AsposeOcr را راه اندازی کنید
AsposeOcr api = new AsposeOcr();

// تنظیم برای تشخیص فایل پی دی اف اسکن شده را مشخص کنید
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// شی کلاس RecognitionResult را راه اندازی کنید
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// متن را پس از تشخیص آن از PDF اسکن شده چاپ کنید
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

تبدیل پی دی اف اسکن شده به فایل TXT به صورت برنامه نویسی در سی شارپ

با انجام مراحل زیر می توانید یک فایل PDF اسکن شده را به یک فایل TXT تبدیل کنید:

  1. شی کلاس AsposeOcr را نمونه سازی کنید.
  2. شیء کلاس DocumentRecognitionSettings ایجاد کنید.
  3. نتایج شناسایی را ذخیره کنید و نمونه کلاس StringBuilder را مقداردهی کنید.
  4. نتیجه را در یک فایل TXT ذخیره کنید.

قطعه کد زیر نحوه تبدیل یک فایل PDF اسکن شده به یک فایل TXT را به صورت برنامه نویسی در سی شارپ توضیح می دهد:

// نمونه کلاس AsposeOcr را راه اندازی کنید
AsposeOcr api = new AsposeOcr();

// تشخیص تصاویر از PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// ذخیره نتایج شناسایی
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// شی کلاس StringBuilder را راه اندازی کنید
StringBuilder builder = new StringBuilder();

// نتیجه را در یک فایل TXT ذخیره کنید
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

مجوز ارزیابی رایگان را دریافت کنید

می‌توانید برای آزمایش API در ظرفیت کامل، مجوز ارزیابی رایگان درخواست کنید.

نتیجه

در این مقاله یاد گرفتید که چگونه یک پی دی اف اسکن شده را با استفاده از سی شارپ به یک رشته متنی یا یک فایل متنی به صورت برنامه نویسی تبدیل کنید. علاوه بر این، می‌توانید چندین ویژگی دیگر API را با مراجعه به مستندات بررسی کنید. لطفاً در صورت وجود هر گونه نگرانی با ما در forum تماس بگیرید.

همچنین ببینید