استخراج تصاویر از اسناد word در پایتون

یک تصویر ارزش هزار کلمه است. به همین دلیل است که تصاویر بخشی جدایی ناپذیر از اسناد، به ویژه اسناد Word هستند. از تصاویر برای جذاب تر و چشم نوازتر کردن محتوا استفاده می شود. هنگام تجزیه اسناد Word، ممکن است با سناریویی روبرو شوید که باید تصاویر را استخراج کنید. برای دستیابی به این هدف از نظر برنامه‌ریزی، این مقاله نحوه استخراج تصاویر از Word DOC DOCX در پایتون را پوشش می‌دهد.

کتابخانه Python برای استخراج تصاویر از اسناد Word DOC DOCX

Aspose.Words for Python یک کتابخانه قدرتمند و غنی از امکانات است که برای ایجاد و دستکاری اسناد Word استفاده می شود. ما از این کتابخانه برای استخراج تصاویر از فایل های DOCX یا DOC استفاده خواهیم کرد. می توانید آن را در برنامه های پایتون خود از PyPI با استفاده از دستور pip زیر نصب کنید.

pip install aspose-words

استخراج تصاویر از Word DOC در پایتون

تصاویر در اسناد Word با گره های شکل نشان داده می شوند. بنابراین، برای بازیابی تصاویر از یک سند، باید اشکال را تجزیه کنید. مراحل زیر نحوه استخراج تصاویر از Word DOC در پایتون را نشان می دهد.

  • ابتدا سند Word را با استفاده از کلاس Document بارگذاری کنید.
  • سپس، با استفاده از روش Document.getchildnodes (NodeType.SHAPE، True) همه اشکال را در یک شی بازیابی کنید.
  • شکل ها را حلقه بزنید و برای هر شکل، عملیات زیر را انجام دهید:
    • با استفاده از متد asshape() شکل را به نوع Shape بریزید.
    • با استفاده از روش Shape.hasimage() بررسی کنید که شکل دارای تصویر است یا خیر.
    • با استفاده از روش Shape.imagedata.save(string) شکل را به عنوان تصویر ذخیره کنید.

نمونه کد زیر نحوه استخراج تصاویر از یک سند Word DOCX در پایتون را نشان می دهد.

import aspose.words as aw

# سند Word را بارگیری کنید
doc = aw.Document("calibre.docx")

# همه اشکال را بازیابی کنید
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# حلقه را از طریق اشکال
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # نام فایل تصویری را تنظیم کنید
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # ذخیره تصویر
        shape.image_data.save(imageFileName)
        imageIndex += 1

API برای استخراج تصاویر از DOC DOCX - مجوز API رایگان دریافت کنید

می‌توانید برای استفاده از Aspose.Words برای پایتون بدون محدودیت ارزیابی، مجوز موقت دریافت کنید.

نتیجه

معمولاً از تصاویر در اسناد Word استفاده می شود تا محتوا جذاب تر شود. در موارد مختلف لازم است تصاویر نیز به همراه متن از اسناد استخراج شود. بنابراین در این مقاله نحوه استخراج تصاویر از اسناد Word DOC DOCX در پایتون را یاد گرفتید. علاوه بر این، می‌توانید اسناد Aspose.Words را برای Python کاوش کنید. در صورت داشتن هرگونه سوال، از طریق [تالار گفتمان6 ما را در جریان بگذارید.

همچنین ببینید

اطلاعات: اگر زمانی نیاز به دریافت یک سند Word از یک ارائه پاورپوینت دارید، می توانید از مبدل Aspose Presentation to Word Document استفاده کنید.