تُستخدم الصور بشكل شائع في مستندات PDF جنبًا إلى جنب مع النص ، مما يجعل المحتوى أكثر جاذبية وتفصيلاً. أثناء معالجة مستندات PDF وتحليلها ، قد تحتاج إلى استخراج الصور أيضًا. لذلك ، في هذه المقالة ، سنشرح كيفية معالجة ملفات PDF واستخراج الصور برمجيًا في Python. سيوضح الدليل خطوة بخطوة وعينة التعليمات البرمجية عملية استخراج الصورة بأكملها.
- مكتبة Python لاستخراج الصور من PDF
- خطوات استخراج الصور من ملف PDF
- استخراج الصور من ملفات PDF في بايثون
مكتبة Python لاستخراج الصور من PDF
لاستخراج الصور من ملف PDF ، سنستخدم Aspose.Words for Python. إنها مكتبة قوية وغنية بالميزات لإنشاء المستندات النصية ومعالجتها بما في ذلك PDF و DOCX. يمكنك تثبيت المكتبة من PyPI باستخدام أمر pip التالي.
> pip install aspose-words
خطوات استخراج الصور من ملف PDF
يتيح لك Aspose.Words for Python استخراج الصور من ملف PDF في بضع خطوات بسيطة. فيما يلي سير العمل الخاص بكيفية استخراج الصور من ملف PDF باستخدام Aspose.Words for Python.
- قم بتحميل ملف PDF من الموقع المطلوب.
- تحويل PDF إلى تنسيق DOCX.
- معالجة نسخة DOCX من PDF واستخراج الصور
- احفظ كل صورة كملف في الموقع المطلوب.
يوضح القسم التالي كيفية تحويل الخطوات المذكورة أعلاه إلى كود Python واستخراج الصور من ملف PDF.
استخراج الصور من PDF في Python
في عملية استخراج الصورة ، سنقوم أولاً بتحويل ملف PDF إلى تنسيق DOCX. في ملف DOCX ، يتم تمثيل الصور بواسطة عقد الشكل. لذلك سنقوم بمعالجة كل شكل واستخراج الصورة منه.
فيما يلي خطوات استخراج الصور من ملف PDF في Python.
- أولاً ، قم بتحميل ملف PDF باستخدام فئة المستند.
- بعد ذلك ، احفظ ملف PDF بتنسيق DOCX وقم بتحميل إصدار DOCX من ملف PDF.
- استرجع جميع الأشكال في كائن باستخدام طريقة Document.getchildnodes (NodeType.SHAPE ، True).
- قم بالتكرار خلال الأشكال وتنفيذ العمليات التالية لكل عقدة شكل:
- صب الشكل في نوع الشكل باستخدام طريقة asshape().
- استخدم طريقة Shape.hasimage() للتحقق مما إذا كان للشكل صورة.
- استخرج الصورة من الشكل واحفظها باستخدام طريقة Shape.imagedata.save(string).
يوضح نموذج التعليمات البرمجية التالي استخراج الصورة من مستند PDF في Python.
# استيراد Aspose.Words لوحدة Python
import aspose.words as aw
# تحميل ملف PDF وتحويله إلى تنسيق Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")
# قم بتحميل إصدار DOCX من PDF
doc = aw.Document("pdf.docx")
# استرجاع كافة الأشكال
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0
# حلقة من خلال الأشكال
for shape in shapes :
shape = shape.as_shape()
if (shape.has_image) :
# تعيين اسم ملف الصورة
imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"
# احفظ الصورة
shape.image_data.save(imageFileName)
imageIndex += 1
مكتبة استخراج صور Python PDF - احصل على ترخيص مجاني
يمكنك الحصول على ترخيص مؤقت مجاني لاستخراج الصور من ملف PDF بدون قيود التقييم.
استنتاج
أثناء تحليل مستندات PDF ، يلزم أيضًا استخراج الصور مع النص. في هذه المقالة ، تعلمت كيفية استخراج الصور من ملف PDF في Python. يمكنك ببساطة تثبيت Aspose.Words for Python ودمج استخراج الصور في تطبيقاتك.
استكشف مكتبة Aspose ‘لاستخراج الصور بتنسيق PDF
تقدم Aspose.Words for Python مجموعة من الميزات الأخرى لمعالجة المستندات النصية. يمكنك زيارة الوثائق لاستكشاف المزيد حول المكتبة. إذا كان لديك أي أسئلة ، فلا تتردد في إخبارنا عبر المنتدى.