استخراج نص من ملف PDF في بايثون

بصفتك مبرمجًا ، قد تحتاج إلى معالجة مجموعة من ملفات PDF واستخراج النص منها. قد يكون استخراج النص من PDF مطلوبًا لأغراض مختلفة مثل تحليل النص. في هذه المقالة ، سوف نوضح مدى سهولة استخراج نص من ملف PDF في Python. علاوة على ذلك ، ستعرف كيفية استخراج النص وحفظه في ملف TXT.

مكتبة Python لاستخراج نص من ملف PDF - تنزيل مجاني

تعد Aspose.Words for Python مكتبة رائعة تسمح لك بإنشاء مستندات نصية ومعالجتها بسلاسة. يمكنك معالجة المستندات ذات التنسيقات الشائعة مثل DOC و DOCX و PDF. سنستخدم هذه المكتبة لأداء استخراج النص على ملفات PDF الخاصة بنا. يمكنك تثبيت المكتبة من PyPI باستخدام أمر pip التالي.

> pip install aspose-words

كيفية استخراج نص من ملف PDF في بايثون

جعلت Aspose.Words for Python استخراج نص PDF أمرًا سهلاً للغاية عن طريق إخفاء العمليات المعقدة عن المستخدم. ما عليك سوى تحميل ملف PDF وحفظ النص المستخرج. توضح الخطوات التالية كيفية استخراج نص من ملف PDF باستخدام Aspose.Words for Python.

  • قم بتحميل ملف PDF من الموقع المطلوب.
  • استخراج النص وحفظه في ملف .txt.

وهذا هو عليه. يمكنك بعد ذلك معالجة ملف .txt والتعامل مع النص العادي المستخرج من ملف PDF.

دعنا الآن نلقي نظرة على كيفية استخراج النص من ملف PDF برمجيًا في Python.

استخراج نص من PDF في Python

فيما يلي الخطوات جنبًا إلى جنب مع الفئات والطرق لاستخراج نص PDF في Python.

  • قم بتحميل ملف PDF باستخدام فئة المستند.
  • استخراج النص من PDF إلى ملف .txt باستخدام طريقة Document.save(fileName).

يوضح نموذج التعليمات البرمجية التالي استخراج النص من ملف PDF في Python.

# استيراد Aspose.Words لوحدة Python
import aspose.words as aw

# قم بتحميل ملف PDF
pdf = aw.Document("file.pdf")

# استخراج النص وحفظه في ملف TXT
pdf.save("extracted-text.txt")

تُظهر لقطة الشاشة التالية ملف PDF المدخل الذي استخدمناه لاستخراج النص.

PDF لاستخراج النص في بايثون

تُظهر لقطة الشاشة التالية النص المستخرج في ملف TXT.

نص مستخرج من PDF إلى TXT

PDF Text Extractor for Python - احصل على ترخيص مجاني

يمكنك الحصول على ترخيص مؤقت مجاني لاستخراج نص من PDF بدون قيود التقييم.

استنتاج

في هذه المقالة ، تعلمت كيفية استخراج نص من ملفات PDF في Python. لقد رأيت مدى سهولة وسرعة استخراج النص من ملف PDF وحفظه في ملف TXT برمجيًا. الآن ، يمكنك تنفيذ استخراج النص لمجموعة من ملفات PDF في تطبيقات Python الخاصة بك.

استكشف Aspose ‘PDF Text Extractor for Python

يمكنك استكشاف ميزات أخرى لـ Aspose.Words لبايثون باستخدام التوثيق. في حال كان لديك أي أسئلة ، لا تتردد في إخبارنا عبر المنتدى.

أنظر أيضا