לחלץ תמונות מ-pdf ב-python

משתמשים בדרך כלל בתמונות במסמכי PDF יחד עם טקסט, מה שהופך את התוכן למושך ומשוכלל יותר. בזמן עיבוד וניתוח מסמכי ה-PDF, ייתכן שיהיה עליך לחלץ גם תמונות. לכן, במאמר זה, נדגים כיצד לעבד קבצי PDF ולחלץ תמונות באופן פרוגרמטי ב-Python. המדריך שלב אחר שלב ודוגמת הקוד ידגים את כל תהליך חילוץ התמונה.

ספריית Python לחילוץ תמונות מ-PDF

כדי לחלץ תמונות מקובץ PDF, נשתמש ב-Aspose.Words for Python. זוהי ספרייה רבת עוצמה ועשירה בתכונות ליצור ולתפעל מסמכי טקסט כולל PDF ו-DOCX. אתה יכול להתקין את הספרייה מ-PyPI באמצעות פקודת ה-pip הבאה.

> pip install aspose-words

שלבים לחילוץ תמונות מ-PDF

Aspose.Words for Python מאפשר לך לחלץ את התמונות מקובץ PDF תוך כמה שלבים פשוטים. להלן זרימת העבודה כיצד לחלץ תמונות מקובץ PDF באמצעות Aspose.Words עבור Python.

  • טען את קובץ ה-PDF מהמיקום הרצוי.
  • המרת PDF לפורמט DOCX.
  • עבד גרסת DOCX של PDF וחלץ תמונות
  • שמור כל תמונה כקובץ במיקום הרצוי.

הסעיף הבא מדגים כיצד להפוך את השלבים שהוזכרו לעיל לקוד Python ולחלץ תמונות מקובץ PDF.

חלץ תמונות מ-PDF ב-Python

בתהליך חילוץ התמונה, נמיר תחילה את קובץ ה-PDF לפורמט DOCX. בקובץ DOCX, התמונות מיוצגות על ידי צמתי הצורה. לכן נעבד כל צורה ונחלץ ממנה את התמונה.

להלן השלבים לחילוץ תמונות מקובץ PDF ב- Python.

  • ראשית, טען את קובץ ה-PDF באמצעות Document class.
  • לאחר מכן, שמור PDF בפורמט DOCX וטען את גרסת DOCX של קובץ ה-PDF.
  • אחזר את כל הצורות לאובייקט באמצעות שיטת Document.getchildnodes(NodeType.SHAPE, True).
  • עברו בלולאה בין הצורות ובצעו את הפעולות הבאות עבור כל צומת צורה:
    • יצוק את הצורה לסוג Shape באמצעות שיטת asshape() .
    • השתמש בשיטת Shape.hasimage() כדי לבדוק אם לצורה יש תמונה.
    • חלץ את התמונה מהצורה ושמור אותה בשיטת Shape.imagedata.save(string).

דוגמת הקוד הבאה מדגימה חילוץ תמונה ממסמך PDF ב- Python.

# ייבוא Aspose.Words עבור מודול Python
import aspose.words as aw

# טען קובץ PDF והמר לפורמט Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# טען את גרסת ה-DOCX של PDF
doc = aw.Document("pdf.docx")

# לאחזר את כל הצורות
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# לולאה דרך צורות
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # הגדר את שם קובץ התמונה
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # שמור תמונה
        shape.image_data.save(imageFileName)
        imageIndex += 1

ספריית חילוץ תמונות PDF של Python - קבל רישיון חינם

אתה יכול לקבל [רישיון זמני] בחינם4 לחילוץ תמונות מ-PDF ללא מגבלות הערכה.

סיכום

בזמן ניתוח מסמכי ה-PDF, נדרש גם חילוץ של תמונות יחד עם הטקסט. במאמר זה למדת כיצד לחלץ תמונות מקובץ PDF ב-Python. אתה יכול פשוט להתקין את Aspose.Words עבור Python ולשלב חילוץ תמונה באפליקציות שלך.

חקור את ספריית חילוץ תמונות PDF של Aspose

Aspose.Words for Python מציעה מגוון תכונות אחרות לתמרן מסמכי טקסט. אתה יכול לבקר בתיעוד כדי לחקור יותר על הספרייה. למקרה שיש לך שאלות כלשהן, אל תהסס ליידע אותנו דרך הפורום שלנו.

ראה גם