חלץ טקסט מ-PDF ב-Python

בעת עיבוד קבצי PDF, לעתים קרובות אתה צריך לחלץ תוכן מהעמודים כטקסט רגיל. ניתן להשתמש בטקסט פשוט זה למטרות שונות, כגון ניתוח טקסט, עיבוד טקסט וכו’. במאמר זה תלמדו כיצד לחלץ טקסט מ-PDF ב-Python. בעזרת דוגמאות קוד, המאמר ידגים כיצד לבצע חילוץ טקסט על PDF שלם או עמוד בודד.

ספריית Python כדי לחלץ טקסט מ-PDF

כדי לחלץ טקסט מקובצי PDF, נשתמש ב-Aspose.PDF for Python. זוהי ספריית PDF רבת עוצמה המאפשרת לך ליצור ולעבד קובצי PDF. בנוסף, זה מאפשר לך להמיר קבצי PDF לפורמטים אחרים.

אתה יכול להתקין את Aspose.PDF עבור Python באמצעות הפקודה pip הבאה.

pip install aspose-pdf

חלץ טקסט מ-PDF ב-Python

להלן השלבים לחילוץ טקסט מקובץ PDF ב- Python.

  • השתמש במחלקת Document כדי לטעון את קובץ ה-PDF.
  • צור מופע של מחלקה TextDevice.
  • התחל לולאה עבור מספר העמודים פעמים.
  • בכל איטרציה, חלץ טקסט מדף באמצעות שיטת TextDevice.process() ושמור את הטקסט שחולץ בקובץ txt.

דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מ-PDF ב-Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# פתח מסמך PDF
document = ap.Document("input.pdf")

# צור התקן טקסט
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # ייצא דף ל-TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

חלץ טקסט מדף מסוים ב-PDF

אתה יכול גם לחלץ טקסט מעמוד ספציפי ב-PDF באמצעות מספר העמוד במערך Document.pages. דוגמת הקוד הבאה מראה כיצד לחלץ טקסט מדף ספציפי ב-PDF.

import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("input.pdf")

# צור התקן טקסט
textDevice = ap.devices.TextDevice()

# חלץ טקסט מהעמוד הראשון
textDevice.process(document.pages[1], "extracted_text.txt")

חלץ טקסט מ-PDF באינטרנט

אתה יכול גם להשתמש בכלי חילוץ טקסט PDF מקוון כדי לחלץ טקסט מקובצי PDF. זהו כלי חינמי שבו אתה יכול להשתמש ללא כל מנוי או הרשמה.

ספריית חילוץ טקסט PDF בחינם

קבל את [הרישיון הזמני] בחינם3 וחלץ טקסט מקובצי PDF ללא כל הגבלה.

חקור את ספריית ה-PDF של Python

אתה יכול לחקור עוד על ספריית ה-PDF של Python באמצעות תיעוד. בנוסף, אתה יכול לפרסם את השאילתות שלך בפורום שלנו.

סיכום

במאמר זה, למדת כיצד לחלץ טקסט מ-PDF ב-Python. השלבים ודוגמאות הקוד הדגימו כיצד לחלץ טקסט מקובץ PDF שלם או מדף ספציפי. אתה יכול בקלות להתקין את הספרייה ולבצע חילוץ טקסט מתוך יישומי Python שלך.

ראה גם