OCR PDF וחילוץ טקסט מ-PDF ב-Python

טכנולוגיית זיהוי תווים אופטי (OCR) ממלאת תפקיד מרכזי בדיגיטציה של טקסט מודפס, סרוק או בכתב יד ממקורות שונים, כולל מסמכי PDF. בפוסט זה בבלוג, נלמד כיצד לבצע OCR מסמכי PDF ולחלץ טקסט מ-PDF ב-Python.

מאמר זה עוסק בנושאים הבאים:

  1. PDF ל-TXT Python OCR API
  2. OCR PDF וחילוץ טקסט מ-PDF
  3. שמור PDF סרוק לטקסט
  4. משאבי למידה בחינם

PDF ל-TXT - Python OCR API

נשתמש ב-Aspose.OCR for Python כדי לבצע OCR על מסמכי PDF ולחלץ טקסט מקובצי PDF. Aspose.OCR for Python הוא API רב עוצמה לזיהוי תווים אופטי (OCR) שיכול לזהות טקסט מתמונות סרוקות, תמונות סמארטפון, צילומי מסך ואזורי תמונות. ה-API מחזיר תוצאות טקסט מזוהות בפורמטים הפופולריים ביותר של מסמכים וחילופי נתונים, כולל PDF, XML, JSON וטקסט רגיל.

בנוסף להמרת תמונות לטקסט, Aspose.OCR עבור Python יכול גם ליצור קובצי PDF הניתנים לחיפוש המבוססים על סריקות. ה-API יכול גם לתקן אוטומטית שגיאות כתיב בטקסטים מזוהים, מה שהופך אותו לאידיאלי עבור מגוון יישומים.

אנא הורד את החבילה או התקן את ה-API מ-PyPI באמצעות פקודת ה-pip הבאה במסוף:

pip install aspose-ocr-python-net

Python OCR PDF - חלץ טקסט מ-PDF ב-Python

אנו יכולים לבצע OCR על מסמכי PDF ולחלץ את הטקסט המוכר על ידי ביצוע השלבים המפורטים להלן:

  1. צור מופע של המחלקה AsposeOcr.
  2. אתחול אובייקט של המחלקה DocumentRecognitionSettings.
  3. הוסף קובץ PDF לאצוות הזיהוי.
  4. לאחר מכן, קרא למתודה () erken.
  5. לבסוף, הצג את הטקסט המזוהה באמצעות המחלקה RecognitionResult.

הקוד לדוגמה הבא מראה כיצד לבצע OCR מסמכי PDF ולחלץ טקסט מ-PDF ב-Python.

# דוגמה זו מדגימה כיצד לזהות ולחלץ טקסט ממסמך PDF סרוק ב-Python.
import aspose.ocr as ocr

# אתחול מנוע OCR
api = ocr.AsposeOcr()

# אתחול הגדרות זיהוי
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# הוסף קובץ לאצוות הזיהוי
files = ocr.OcrInput(ocr.InputType.PDF)

# גש ל-PDF הסרוק והגדר את מספר העמוד ומספר העמודים הכולל
files.add("C:\\Files\\sample.pdf", 0, 1)

# מזהה את הטקסט
result = api.recognize(files , settings)

# תוצאת זיהוי הדפסה
print(result[0].recognition_text)

Python OCR PDF - שמור PDF סרוק לטקסט ב-Python

אנו יכולים לבצע OCR על מסמכי PDF ולשמור את הטקסט המוכר על ידי ביצוע השלבים המפורטים להלן:

  1. צור מופע של המחלקה AsposeOcr.
  2. אתחול אובייקט של המחלקה DocumentRecognitionSettings.
  3. הוסף קובץ PDF לאצוות הזיהוי.
  4. לאחר מכן, קרא למתודה () erken.
  5. לבסוף, שמור את הטקסט באמצעות שיטת savemultipagedocument(). הוא לוקח את נתיב קובץ הפלט, את האובייקט SaveFormat ו-RecognitionResult כארגומנטים.

הקוד לדוגמה הבא מראה כיצד לבצע OCR מסמכי PDF ולשמור את הטקסט המזוהה ב- Python.

# דוגמה זו מדגימה כיצד לשמור את הטקסט לזהות ולחלץ באמצעות Python.
import aspose.ocr as ocr

# אתחול מנוע OCR
api = ocr.AsposeOcr()

# אתחול הגדרות זיהוי
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# הוסף קובץ לאצוות הזיהוי
files = ocr.OcrInput(ocr.InputType.PDF)

# גש ל-PDF הסרוק והגדר את מספר העמוד ומספר העמודים הכולל
files.add("C:\\Files\\sample.pdf", 0, 1)

# מזהה את הטקסט
result = api.recognize(files , settings)

# תוצאת זיהוי הדפסה
print(result[0].recognition_text)

# שמור את הטקסט שחולץ
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

קבל רישיון הערכה בחינם

אתה יכול לקבל רישיון זמני בחינם כדי לנסות את הספרייה ללא מגבלות הערכה.

Python OCR PDF - משאבים חינם

תוכל להמשיך ולחקור את המשאבים הבאים כדי ללמוד את ה-API של Python OCR:

סיכום

במאמר זה למדנו כיצד לבצע OCR על מסמכי PDF ולחלץ טקסט מ-PDF ב-Python. היכולת לחלץ טקסט מקובצי PDF באמצעות OCR היא משנה משחק בתעשיות רבות, מארכיון ותיעוד משפטי ועד לניתוח נתונים ודיגיטציה של תוכן. על ידי מינוף Aspose.OCR עבור Python, מפתחים וחובבים יכולים לשלב בצורה חלקה יכולות OCR בפרויקטים של Python. בכל מקרה של אי בהירות, אנא אל תהסס לפנות אלינו בפורום התמיכה החינמי שלנו.

ראה גם