استخراج نص من ملف PDF في Python

أثناء معالجة ملفات PDF ، غالبًا ما تحتاج إلى استخراج المحتوى من الصفحات كنص عادي. يمكن استخدام هذا النص العادي أيضًا لأغراض مختلفة ، مثل تحليل النص ومعالجة النصوص وما إلى ذلك. في هذه المقالة ، ستتعلم كيفية استخراج النص من ملف PDF في Python. بمساعدة نماذج التعليمات البرمجية ، ستوضح المقالة كيفية إجراء استخراج النص على ملف PDF كامل أو صفحة واحدة.

مكتبة Python لاستخراج نص من PDF

لاستخراج نص من ملفات PDF ، سنستخدم Aspose.PDF for Python. إنها مكتبة معالجة قوية لملفات PDF تتيح لك إنشاء ملفات PDF ومعالجتها. بالإضافة إلى ذلك ، يسمح لك بتحويل ملفات PDF إلى تنسيقات أخرى.

يمكنك تثبيت Aspose.PDF لبايثون باستخدام الأمر pip التالي.

pip install aspose-pdf

استخراج نص من ملف PDF في بايثون

فيما يلي خطوات استخراج نص من ملف PDF في Python.

  • استخدم فئة المستند لتحميل ملف PDF.
  • قم بإنشاء مثيل لفئة TextDevice.
  • ابدأ حلقة لعدد الصفحات مرة.
  • في كل تكرار ، استخرج نصًا من صفحة باستخدام طريقة TextDevice.process() واحفظ النص المستخرج في ملف .txt.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص من PDF في Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# افتح مستند PDF
document = ap.Document("input.pdf")

# إنشاء جهاز نصي
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # تصدير الصفحة إلى TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

استخراج نص من صفحة محددة في PDF

يمكنك أيضًا استخراج نص من صفحة معينة في ملف PDF باستخدام رقم الصفحة في مصفوفة Document.pages. يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص من صفحة معينة في PDF.

import aspose.pdf as ap

# افتح مستند PDF
document = ap.Document("input.pdf")

# إنشاء جهاز نصي
textDevice = ap.devices.TextDevice()

# استخراج النص من الصفحة الأولى
textDevice.process(document.pages[1], "extracted_text.txt")

استخراج النص من ملف PDF على الإنترنت

يمكنك أيضًا استخدام أداة استخراج نص PDF عبر الإنترنت لاستخراج نص من ملفات PDF. إنها أداة مجانية يمكنك استخدامها دون أي اشتراك أو تسجيل.

مكتبة استخراج نص PDF مجانية

احصل على الترخيص المؤقت المجاني واستخرج النص من ملفات PDF دون أي قيود.

استكشف مكتبة Python PDF

يمكنك استكشاف المزيد حول مكتبة Python PDF باستخدام التوثيق. بالإضافة إلى ذلك ، يمكنك إرسال استفساراتك إلى المنتدى.

خاتمة

في هذه المقالة ، تعلمت كيفية استخراج نص من ملف PDF في بايثون. لقد أوضحت الخطوات وعينات التعليمات البرمجية كيفية استخراج النص من ملف PDF كامل أو من صفحة معينة. يمكنك بسهولة تثبيت المكتبة وتنفيذ استخراج النص من داخل تطبيقات Python الخاصة بك.

أنظر أيضا