استخراج تصاویر از پی دی اف در پایتون

معمولاً از تصاویر در اسناد PDF همراه با متن استفاده می شود که باعث می شود محتوا جذاب تر و دقیق تر شود. در حین پردازش و تجزیه و تحلیل اسناد PDF، ممکن است نیاز به استخراج تصاویر نیز داشته باشید. بنابراین، در این مقاله نحوه پردازش فایل‌های PDF و استخراج تصاویر به صورت برنامه‌نویسی در پایتون را نشان خواهیم داد. راهنمای گام به گام و نمونه کد کل فرآیند استخراج تصویر را نشان می دهد.

کتابخانه Python برای استخراج تصاویر از PDF

برای استخراج تصاویر از یک فایل PDF، از Aspose.Words for Python استفاده می کنیم. این یک کتابخانه قدرتمند و غنی برای ایجاد و دستکاری اسناد متنی از جمله PDF و DOCX است. با استفاده از دستور pip زیر می توانید کتابخانه را از PyPI نصب کنید.

> pip install aspose-words

مراحل استخراج تصاویر از PDF

Aspose.Words برای Python به شما امکان می دهد تصاویر را از یک فایل PDF در چند مرحله ساده استخراج کنید. در زیر روند کار نحوه استخراج تصاویر از PDF با استفاده از Aspose.Words برای Python آمده است.

  • فایل PDF را از محل مورد نظر بارگیری کنید.
  • تبدیل PDF به فرمت DOCX.
  • نسخه DOCX PDF را پردازش کرده و تصاویر را استخراج کنید
  • هر تصویر را به صورت فایل در محل مورد نظر ذخیره کنید.

بخش زیر نحوه تبدیل مراحل ذکر شده در بالا به کد پایتون و استخراج تصاویر از PDF را نشان می دهد.

استخراج تصاویر از PDF در پایتون

در فرآیند استخراج تصویر ابتدا فایل PDF را به فرمت DOCX تبدیل می کنیم. در یک فایل DOCX، تصاویر با گره های شکل نمایش داده می شوند. بنابراین، ما هر شکل را پردازش کرده و تصویر را از آن استخراج می کنیم.

در زیر مراحل استخراج تصاویر از PDF در پایتون آمده است.

  • ابتدا فایل PDF را با استفاده از کلاس Document بارگذاری کنید.
  • سپس PDF را با فرمت DOCX ذخیره کنید و نسخه DOCX فایل PDF را بارگذاری کنید.
  • با استفاده از روش Document.getchildnodes (NodeType.SHAPE، True) همه اشکال را در یک شی بازیابی کنید.
  • شکل ها را حلقه بزنید و عملیات زیر را برای هر گره شکل انجام دهید:
    • با استفاده از متد asshape() شکل را به نوع Shape بریزید.
    • از متد Shape.hasimage() برای بررسی اینکه آیا شکل دارای تصویر است یا خیر استفاده کنید.
    • تصویر را از شکل استخراج کرده و با استفاده از روش Shape.imagedata.save(string) ذخیره کنید.

نمونه کد زیر استخراج تصویر از یک سند PDF در پایتون را نشان می دهد.

# Aspose.Words را برای ماژول پایتون وارد کنید
import aspose.words as aw

# فایل PDF را بارگیری کرده و به فرمت Word DOCX تبدیل کنید
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# نسخه DOCX PDF را بارگیری کنید
doc = aw.Document("pdf.docx")

# همه اشکال را بازیابی کنید
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# حلقه را از طریق اشکال
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # نام فایل تصویری را تنظیم کنید
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # ذخیره تصویر
        shape.image_data.save(imageFileName)
        imageIndex += 1

کتابخانه استخراج تصویر PDF Python - مجوز رایگان دریافت کنید

می توانید برای استخراج تصاویر از PDF بدون محدودیت ارزیابی، مجوز موقت رایگان دریافت کنید.

نتیجه

هنگام تجزیه و تحلیل اسناد PDF، تصاویر نیز به همراه متن مورد نیاز است. در این مقاله نحوه استخراج تصاویر از PDF در پایتون را یاد گرفتید. شما به سادگی می توانید Aspose.Words را برای پایتون نصب کنید و استخراج تصویر را در برنامه های خود ادغام کنید.

کتابخانه استخراج تصویر PDF Aspose را کاوش کنید

Aspose.Words برای پایتون طیف وسیعی از ویژگی های دیگر را برای دستکاری اسناد متنی ارائه می دهد. برای کاوش بیشتر در مورد کتابخانه می توانید از مستندات دیدن کنید. در صورت داشتن هرگونه سوال، از طریق [تالار گفتمان6 ما را در جریان بگذارید.

همچنین ببینید