أثناء معالجة ملفات PDF ، غالبًا ما تحتاج إلى استخراج المحتوى من الصفحات كنص عادي. يمكن استخدام هذا النص العادي أيضًا لأغراض مختلفة ، مثل تحليل النص ومعالجة النصوص وما إلى ذلك. في هذه المقالة ، ستتعلم كيفية استخراج النص من ملف PDF في Python. بمساعدة نماذج التعليمات البرمجية ، ستوضح المقالة كيفية إجراء استخراج النص على ملف PDF كامل أو صفحة واحدة.
- مكتبة Python لاستخراج نص من PDF
- استخراج نص من ملف PDF في بايثون
- استخراج نص من صفحة في PDF
- مستخرج نص PDF على الإنترنت
مكتبة Python لاستخراج نص من PDF
لاستخراج نص من ملفات PDF ، سنستخدم Aspose.PDF for Python. إنها مكتبة معالجة قوية لملفات PDF تتيح لك إنشاء ملفات PDF ومعالجتها. بالإضافة إلى ذلك ، يسمح لك بتحويل ملفات PDF إلى تنسيقات أخرى.
يمكنك تثبيت Aspose.PDF لبايثون باستخدام الأمر pip التالي.
pip install aspose-pdf
استخراج نص من ملف PDF في بايثون
فيما يلي خطوات استخراج نص من ملف PDF في Python.
- استخدم فئة المستند لتحميل ملف PDF.
- قم بإنشاء مثيل لفئة TextDevice.
- ابدأ حلقة لعدد الصفحات مرة.
- في كل تكرار ، استخرج نصًا من صفحة باستخدام طريقة TextDevice.process() واحفظ النص المستخرج في ملف .txt.
يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص من PDF في Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# افتح مستند PDF
document = ap.Document("input.pdf")
# إنشاء جهاز نصي
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# تصدير الصفحة إلى TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
استخراج نص من صفحة محددة في PDF
يمكنك أيضًا استخراج نص من صفحة معينة في ملف PDF باستخدام رقم الصفحة في مصفوفة Document.pages. يوضح نموذج التعليمات البرمجية التالي كيفية استخراج نص من صفحة معينة في PDF.
import aspose.pdf as ap
# افتح مستند PDF
document = ap.Document("input.pdf")
# إنشاء جهاز نصي
textDevice = ap.devices.TextDevice()
# استخراج النص من الصفحة الأولى
textDevice.process(document.pages[1], "extracted_text.txt")
استخراج النص من ملف PDF على الإنترنت
يمكنك أيضًا استخدام أداة استخراج نص PDF عبر الإنترنت لاستخراج نص من ملفات PDF. إنها أداة مجانية يمكنك استخدامها دون أي اشتراك أو تسجيل.
مكتبة استخراج نص PDF مجانية
احصل على الترخيص المؤقت المجاني واستخرج النص من ملفات PDF دون أي قيود.
استكشف مكتبة Python PDF
يمكنك استكشاف المزيد حول مكتبة Python PDF باستخدام التوثيق. بالإضافة إلى ذلك ، يمكنك إرسال استفساراتك إلى المنتدى.
خاتمة
في هذه المقالة ، تعلمت كيفية استخراج نص من ملف PDF في بايثون. لقد أوضحت الخطوات وعينات التعليمات البرمجية كيفية استخراج النص من ملف PDF كامل أو من صفحة معينة. يمكنك بسهولة تثبيت المكتبة وتنفيذ استخراج النص من داخل تطبيقات Python الخاصة بك.