فایل PDF یکی از رایج ترین اسناد تجاری است. در موارد خاص، ممکن است نیاز داشته باشیم که اسناد پی دی اف اسکن شده را به صورت برنامه ریزی شده بخوانیم. دشواری استخراج متن از فایل های PDF اسکن شده منجر به توسعه ابزارهایی شده است که خواندن و بازیابی متن از چنین اسناد PDF را آسان تر می کند. بسته به محتوای سند شما، استخراج متن از فایل های PDF به دلایل مختلفی می تواند مفید باشد. در این مقاله با نحوه OCR اسناد PDF و استخراج متن از PDF در سی شارپ آشنا می شویم.
در این مقاله به موضوعات زیر پرداخته خواهد شد:
- OCR PDF به متن C# API
- OCR PDF و استخراج متن از PDF
- انجام OCR در PDF و ذخیره متن
- OCR PDF به فایل Word
- OCR PDF به JSON
OCR PDF به متن C# API
ما از Aspose.OCR for .NET API برای انجام OCR در سند PDF استفاده خواهیم کرد. می تواند تصاویر اسکن شده، عکس های گوشی هوشمند، اسکرین شات ها و مناطقی از تصاویر را تشخیص دهد. API نتایج متن شناخته شده را در محبوب ترین فرمت های اسناد و تبادل داده برمی گرداند. علاوه بر تبدیل تصاویر به متن، API همچنین می تواند فایل های PDF قابل جستجو را بر اساس اسکن ایجاد کند. علاوه بر این، قادر به تصحیح خودکار اشتباهات املایی در متون شناخته شده است.
API کلاس AsposeOcr را ارائه می کند که روش های مختلفی را برای انجام عملیات OCR ارائه می دهد. این روش RecognizePdf(string, DocumentRecognitionSettings) را برای تشخیص متن از سند PDF ارائه شده ارائه می دهد. کلاس DocumentRecognitionSettings API تنظیماتی را برای فرآیند تشخیص PDF ارائه می دهد. کلاس RecognitionResult نتایج تشخیص تصویر را نشان می دهد.
لطفاً یا DLL API را دانلود کنید یا آن را با استفاده از NuGet نصب کنید.
PM> Install-Package Aspose.OCR
OCR PDF و استخراج متن از PDF در سی شارپ
میتوانیم OCR را روی اسناد PDF انجام دهیم و متن شناسایی شده را با دنبال کردن مراحل زیر استخراج کنیم:
- ابتدا یک نمونه از کلاس AsposeOcr ایجاد کنید.
- سپس، یک شی از کلاس DocumentRecognitionSettings را مقداردهی اولیه کنید.
- سپس زبان مورد استفاده برای OCR را مشخص کنید.
- پس از آن، با فراخوانی متد RecognizePdf() RecognitionResult را دریافت کنید. مسیر تصویر و شی DocumentRecognitionSettings را به عنوان آرگومان می گیرد.
- در نهایت، لیست RecognitionResult را حلقه بزنید و متن شناسایی شده را نشان دهید.
کد نمونه زیر نحوه OCR اسناد PDF و استخراج متن شناخته شده در سی شارپ را نشان می دهد.
// این مثال کد نحوه OCR اسناد PDF و استخراج متن شناخته شده را نشان می دهد.
// موتور PCR را راه اندازی کنید
AsposeOcr recognitionEngine = new AsposeOcr();
// تنظیمات تشخیص را راه اندازی کنید
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// زبان را برای OCR مشخص کنید. به صورت پیش فرض چند زبانه
recognitionSettings.Language = Language.Eng;
// تشخیص متن از PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// متن شناسایی شده را نشان دهید
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
انجام OCR در PDF و ذخیره متن در سی شارپ
ما می توانیم OCR را روی اسناد PDF انجام دهیم و با دنبال کردن مراحل زیر، متن شناسایی شده را ذخیره کنیم:
- ابتدا یک نمونه از کلاس AsposeOcr ایجاد کنید.
- سپس، یک شی از کلاس DocumentRecognitionSettings را مقداردهی اولیه کنید.
- سپس زبان مورد استفاده برای OCR را مشخص کنید.
- پس از آن، متد RecognizePdf() را فراخوانی کنید تا RecognitionResult را دریافت کنید. مسیر تصویر و شی DocumentRecognitionSettings را به عنوان آرگومان می گیرد.
- در نهایت متن را با استفاده از متد SaveMultipageDocument() ذخیره کنید. مسیر فایل خروجی، شی SaveFormat و RecognitionResult را به عنوان آرگومان می گیرد.
کد نمونه زیر نحوه OCR اسناد PDF و ذخیره متن شناسایی شده در سی شارپ را نشان می دهد.
// این مثال کد نحوه OCR اسناد PDF و استخراج متن شناخته شده را نشان می دهد.
// موتور PCR را راه اندازی کنید
AsposeOcr recognitionEngine = new AsposeOcr();
// تنظیمات تشخیص را راه اندازی کنید
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// زبان را برای OCR مشخص کنید. به صورت پیش فرض چند زبانه
recognitionSettings.Language = Language.Eng;
// تشخیص متن از PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// متن شناسایی شده را ذخیره کنید
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR PDF و تبدیل PDF اسکن شده به Word در سی شارپ
ما می توانیم OCR را بر روی اسناد PDF اسکن شده انجام دهیم و با دنبال کردن مراحل ذکر شده قبلی، متن شناسایی شده را در سند Word ذخیره کنیم. با این حال، ما فقط باید SaveFormat.Docx را در آخرین مرحله مشخص کنیم.
کد نمونه زیر نحوه OCR PDF و ذخیره متن شناسایی شده به عنوان یک سند Word در C# را نشان می دهد.
// این مثال کد نحوه OCR اسناد PDF و ذخیره متن شناسایی شده به عنوان DOCX را نشان می دهد.
// موتور PCR را راه اندازی کنید
AsposeOcr recognitionEngine = new AsposeOcr();
// تنظیمات تشخیص را راه اندازی کنید
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// زبان را برای OCR مشخص کنید. به صورت پیش فرض چند زبانه
recognitionSettings.Language = Language.Eng;
// تشخیص متن از PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// متن شناسایی شده را به عنوان DOCX ذخیره کنید
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF و تبدیل PDF به JSON در سی شارپ
ما میتوانیم OCR را روی اسناد PDF انجام دهیم و با دنبال کردن مراحلی که قبلا ذکر شد، متن شناسایی شده را در یک فایل JSON ذخیره کنیم. با این حال، ما فقط باید SaveFormat.Json را در آخرین مرحله مشخص کنیم.
کد نمونه زیر نحوه OCR PDF و ذخیره متن شناسایی شده به عنوان یک فایل JSON در C# را نشان می دهد.
// این مثال کد نحوه OCR اسناد PDF و ذخیره متن شناسایی شده به عنوان JSON را نشان می دهد.
// موتور PCR را راه اندازی کنید
AsposeOcr recognitionEngine = new AsposeOcr();
// تنظیمات تشخیص را راه اندازی کنید
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// زبان را برای OCR مشخص کنید. به صورت پیش فرض چند زبانه
recognitionSettings.Language = Language.Eng;
// تشخیص متن از PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// متن شناسایی شده را به عنوان JSON ذخیره کنید
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
مجوز ارزیابی رایگان دریافت کنید
شما می توانید یک مجوز موقت رایگان دریافت کنید تا کتابخانه را بدون محدودیت ارزیابی امتحان کنید.
نتیجه
در این مقاله با نحوه انجام OCR روی اسناد PDF و استخراج متن از PDF در سی شارپ آشنا شدیم. ما همچنین نحوه ذخیره متن شناسایی شده را به عنوان یک فایل TXT، DOCX و JSON دیدهایم. علاوه بر این، میتوانید با استفاده از documentation درباره Aspose.OCR for .NET API اطلاعات بیشتری کسب کنید. در صورت وجود هرگونه ابهامی، لطفاً با ما در [فروم 19 ما تماس بگیرید.