PDF به Word OCR Python

تبدیل فایل‌های PDF اسکن شده به اسناد Word مزایای متعددی مانند ویرایش متن درون سند، ایجاد تغییرات یا به‌روزرسانی را آسان می‌کند. همچنین امکان جستجوی متن را فراهم می کند که برای اسناد بزرگ یا هنگام انجام تحقیق بسیار ارزشمند است. علاوه بر این، هنگام اجرای OCR در پایتون، می‌توانید برای تصحیح هر گونه غلط املایی یا غلط املایی، املا بررسی کنید. بر این اساس، این مقاله نحوه تبدیل PDF اسکن شده به سند Word با OCR در پایتون را با استفاده از کتابخانه Aspose.OCR for Python via .NET توضیح می دهد.

PDF به Word با OCR – نصب API پایتون

قبل از اینکه وارد تشخیص متن شویم، مطمئن شویم که محیط لازم برای اجرای OCR در پایتون را تنظیم کرده ایم. مطمئن شوید که پایتون را روی سیستم خود نصب کرده اید، ترجیحاً نسخه 3.x یا بالاتر، همراه با یک ویرایشگر کد قابل اعتماد یا محیط توسعه یکپارچه (IDE) مانند Visual Studio Code یا IDLE و غیره. سپس باید Aspose.OCR را برای آن پیکربندی کنید. پایتون از طریق دات نت هنگام دسترسی به آن از بخش نسخه های جدید یا از PyPi با دستور نصب زیر:

pip install aspose-ocr-python-net

تبدیل PDF اسکن شده به Word با OCR در پایتون

با دنبال کردن مراحل زیر می توانید PDF اسکن شده را با OCR به Word تبدیل کنید:

  1. API را با استفاده از کلاس AsposeOcr راه اندازی کنید.
  2. تنظیمات مختلف را برای تشخیص تنظیم کنید.
  3. متن را با OCR تشخیص دهید و فایل خروجی DOCX Word را ذخیره کنید.

قطعه کد زیر نحوه تبدیل PDF اسکن شده به Word با OCR در پایتون را نشان می دهد:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF به Word با OCR و املا در پایتون

موتورهای OCR ممکن است گاهی اوقات نادرستی ایجاد کنند، به خصوص در هنگام برخورد با طرح بندی های پیچیده، دست خط یا اسکن های با کیفیت پایین. در چنین مواردی، تصحیح املا نقش مهمی در بهبود دقت متن تبدیل شده ایفا می کند. این بخش به ویژه به تبدیل PDF به Word با OCR و ویژگی غلط گیر املا در پایتون می پردازد. برای برآوردن این شرایط باید مراحل زیر را دنبال کنید:

  1. نمونه ای از کلاس AsposeOcr را راه اندازی کنید.
  2. ویژگی های مختلف را با استفاده از کلاس RecognitionSettings تنظیم کنید.
  3. PDF را با OCR تشخیص دهید و املای رشته استخراج شده را بررسی کنید.
  4. سند خروجی Word را با فرمت DOCX صادر کنید.

کد نمونه زیر نحوه تبدیل PDF به سند Word با OCR در پایتون را توضیح می دهد:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

مجوز ارزیابی رایگان دریافت کنید

برای جلوگیری از هرگونه محدودیت ارزیابی و واترمارک، می توانید یک مجوز موقت رایگان دریافت کنید.

جمع بندی

در این پست وبلاگ، نحوه تبدیل PDF های اسکن شده به اسناد Word با استفاده از OCR در پایتون را بررسی کرده ایم. ما اهمیت OCR و مزایای آن را مورد بحث قرار دادیم، راهنمای گام به گام برای تنظیم محیط، استخراج متن از سند PDF با رویکردهای مختلف و در عین حال تعیین چندین تنظیمات، و ذخیره آن در یک سند Word ارائه کردیم. این راهنما شما را قادر می سازد تا تبدیل PDF های اسکن شده به اسناد Word قابل ویرایش را با استفاده از Python و OCR به صورت خودکار انجام دهید و دنیایی از امکانات را برای استخراج و دستکاری داده ها باز می کند. در صورت نیاز به بحث در مورد هر یک از نگرانی‌های خود، لطفاً در [تالار گفتمان پشتیبانی رایگان7 برای ما بنویسید.

همچنین ببینید