OCR PDF و استخراج متن از PDF در پایتون

فناوری تشخیص کاراکتر نوری (OCR) نقشی اساسی در دیجیتالی کردن متن چاپی، اسکن شده یا دست‌نویس از منابع مختلف، از جمله اسناد PDF ایفا می‌کند. در این پست وبلاگ، نحوه OCR اسناد PDF و استخراج متن از PDF در پایتون را خواهیم آموخت.

این مقاله موضوعات زیر را پوشش می دهد:

  1. PDF به TXT Python OCR API
  2. OCR PDF و استخراج متن از PDF
  3. PDF اسکن شده را در متن ذخیره کنید
  4. منابع آموزشی رایگان

PDF به TXT - Python OCR API

ما از Aspose.OCR برای Python برای انجام OCR روی اسناد PDF و استخراج متن از PDF استفاده خواهیم کرد. Aspose.OCR برای Python یک API تشخیص کاراکتر نوری (OCR) قدرتمند است که می تواند متن را از تصاویر اسکن شده، عکس های گوشی هوشمند، اسکرین شات ها و مناطقی از تصاویر تشخیص دهد. API نتایج متن شناخته شده را در محبوب ترین فرمت های اسناد و تبادل داده، از جمله PDF، XML، JSON و متن ساده برمی گرداند.

علاوه بر تبدیل تصاویر به متن، Aspose.OCR برای پایتون همچنین می‌تواند فایل‌های PDF قابل جستجو را بر اساس اسکن ایجاد کند. API همچنین می‌تواند اشتباهات املایی را در متون شناسایی شده تصحیح کند و آن را برای برنامه‌های مختلف ایده‌آل می‌کند.

لطفاً پکیج را دانلود کنید یا API را از PyPI با استفاده از دستور pip زیر در کنسول نصب کنید:

pip install aspose-ocr-python-net

Python OCR PDF - استخراج متن از PDF در پایتون

می‌توانیم OCR را روی اسناد PDF انجام دهیم و متن شناسایی شده را با دنبال کردن مراحل زیر استخراج کنیم:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را راه اندازی کنید.
  3. فایل PDF را به دسته شناسایی اضافه کنید.
  4. پس از آن، متد ()شناسایی را فراخوانی کنید.
  5. در نهایت، متن شناسایی شده را با استفاده از کلاس RecognitionResult نشان دهید.

کد نمونه زیر نحوه OCR اسناد PDF و استخراج متن از PDF در پایتون را نشان می دهد.

# این مثال کد نحوه تشخیص و استخراج متن از یک سند PDF اسکن شده در پایتون را نشان می دهد.
import aspose.ocr as ocr

# موتور OCR را راه اندازی کنید
api = ocr.AsposeOcr()

# تنظیمات Recognition را راه اندازی کنید
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# فایل را به دسته شناسایی اضافه کنید
files = ocr.OcrInput(ocr.InputType.PDF)

# به PDF اسکن شده دسترسی پیدا کنید و تعداد صفحه و تعداد کل صفحات را تنظیم کنید
files.add("C:\\Files\\sample.pdf", 0, 1)

# متن را تشخیص دهید
result = api.recognize(files , settings)

# نتیجه تشخیص چاپ
print(result[0].recognition_text)

Python OCR PDF - PDF اسکن شده را در متن در پایتون ذخیره کنید

ما می توانیم OCR را روی اسناد PDF انجام دهیم و با دنبال کردن مراحل زیر، متن شناسایی شده را ذخیره کنیم:

  1. یک نمونه از کلاس AsposeOcr ایجاد کنید.
  2. یک شی از کلاس DocumentRecognitionSettings را راه اندازی کنید.
  3. فایل PDF را به دسته شناسایی اضافه کنید.
  4. پس از آن، متد ()شناسایی را فراخوانی کنید.
  5. در نهایت متن را با استفاده از متد savemultipagedocument() ذخیره کنید. مسیر فایل خروجی، شی SaveFormat و RecognitionResult را به عنوان آرگومان می گیرد.

کد نمونه زیر نحوه OCR اسناد PDF و ذخیره متن شناسایی شده در پایتون را نشان می دهد.

# این مثال کد نحوه ذخیره و استخراج متن را با استفاده از پایتون نشان می دهد.
import aspose.ocr as ocr

# موتور OCR را راه اندازی کنید
api = ocr.AsposeOcr()

# تنظیمات Recognition را راه اندازی کنید
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# فایل را به دسته شناسایی اضافه کنید
files = ocr.OcrInput(ocr.InputType.PDF)

# به PDF اسکن شده دسترسی پیدا کنید و تعداد صفحه و تعداد کل صفحات را تنظیم کنید
files.add("C:\\Files\\sample.pdf", 0, 1)

# متن را تشخیص دهید
result = api.recognize(files , settings)

# نتیجه تشخیص چاپ
print(result[0].recognition_text)

# متن استخراج شده را ذخیره کنید
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

مجوز ارزیابی رایگان دریافت کنید

می‌توانید یک مجوز موقت رایگان دریافت کنید تا کتابخانه را بدون محدودیت ارزیابی امتحان کنید.

Python OCR PDF - منابع رایگان

برای یادگیری Python OCR API می توانید منابع زیر را بیشتر کاوش کنید:

نتیجه

در این مقاله با نحوه اجرای OCR روی اسناد PDF و استخراج متن از PDF در پایتون آشنا شدیم. توانایی استخراج متن از فایل‌های PDF با استفاده از OCR در صنایع متعدد، از بایگانی و اسناد قانونی گرفته تا تجزیه و تحلیل داده‌ها و دیجیتالی کردن محتوا، یک تغییر بازی است. با استفاده از Aspose.OCR برای پایتون، توسعه دهندگان و علاقه مندان می توانند به طور یکپارچه قابلیت های OCR را در پروژه های پایتون خود ادغام کنند. در صورت وجود هرگونه ابهام، لطفاً با ما در تالار گفتمان پشتیبانی رایگان تماس بگیرید.

همچنین ببینید