اسکن PDF به Word OCR csharp

فایل‌های اسکن شده PDF حاوی تصاویری هستند که متن را نمی‌توان انتخاب یا ویرایش کرد. در شرایط خاص، ممکن است لازم باشد PDF اسکن شده را به سند Word تبدیل کنید. در این مقاله، نحوه تبدیل PDF اسکن شده به سند ورد با فرمت DOCX یا DOC را به صورت برنامه‌نویسی با استفاده از C# یاد خواهید گرفت:

تبدیل PDF به Word DOCX اسکن شده – نصب API C#

می توانید با انجام عملیات OCR با Aspose.OCR for .NET API و سپس ایجاد یک سند Word با استفاده از Aspose.Words for .NET API برنامه نویسی با استفاده از C#، با فایل های PDF اسکن شده کار کنید. می‌توانید APIها را با دانلود فایل‌های DLL از نسخه‌های جدید یا با دستورات نصب NuGet زیر پیکربندی کنید:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

تبدیل پی دی اف اسکن شده به سند ورد به صورت برنامه نویسی با استفاده از سی شارپ

شما می توانید فایل های PDF اسکن شده را با تشخیص نوری متن به اسناد Word تبدیل کنید. عملیات OCR پی دی اف اسکن شده را به متن تبدیل می کند و سپس سند Word در فرمت DOC یا DOCX تولید می شود. لطفا مراحل زیر را برای تبدیل PDF اسکن شده به سند Word دنبال کنید:

  1. نمونه کلاس AsposeOcr را راه اندازی کنید.
  2. با کلاس DocumentRecognitionSettings تصاویر را از PDF تشخیص دهید.
  3. شی کلاس StringBuilder را مقداردهی کنید و متن را ذخیره کنید.
  4. سند word را با کلاس Document مقداردهی کنید.
  5. قالب بندی فونت و پاراگراف را مشخص کنید.
  6. سند Word خروجی را به عنوان فایل DOCX یا DOC ذخیره کنید.

قطعه کد زیر نحوه تبدیل یک فایل پی دی اف اسکن شده به سند ورد را به صورت برنامه نویسی با استفاده از سی شارپ نشان می دهد:

// نمونه کلاس AsposeOcr را راه اندازی کنید
AsposeOcr api = new AsposeOcr();

// با کلاس DocumentRecognitionSettings تصاویر را از PDF تشخیص دهید    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// ذخیره نتایج شناسایی
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// شی کلاس StringBuilder را راه اندازی کنید
StringBuilder text = new StringBuilder();

// نتیجه را به صورت متن ذخیره کنید
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// سند word را با کلاس Document راه اندازی کنید.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// قالب بندی فونت را مشخص کنید
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// قالب بندی پاراگراف را مشخص کنید
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// ذخیره خروجی سند Word. 
doc.Save("Scanned_PDF_to_Word.docx");

مجوز ارزیابی رایگان را دریافت کنید

می‌توانید با درخواست مجوز موقت رایگان APIها را با ظرفیت کامل آزمایش کنید.

نتیجه

در این مقاله یاد گرفتید که چگونه یک فایل PDF اسکن شده را با استفاده از سی شارپ به یک سند Word با فرمت DOCX یا DOC تبدیل کنید. علاوه بر این، می‌توانید چندین ویژگی دیگر مرتبط با OCR را با مراجعه به مستندات کاوش کنید. لطفاً در صورت وجود هرگونه سؤال با ما در [فروم 14 تماس بگیرید.

همچنین ببینید

نکته: اگر زمانی نیاز به دریافت یک سند Word از یک ارائه پاورپوینت داشتید، می توانید از مبدل Aspose Presentation to Word Document استفاده کنید.