OCR PDF Python

מסמכי PDF סרוקים הם לרוב מאתגרים לעבודה בשל היעדר טקסט הניתן לחיפוש או לעריכה. עם זאת, עם העוצמה של טכנולוגיית זיהוי תווים אופטי (OCR), חילוץ טקסט מקובצי PDF סרוקים והמרתם לפורמטים הניתנים לחיפוש או לעריכה הופכים למציאות. בפוסט זה בבלוג תלמדו כיצד לבצע זיהוי טקסט PDF עם OCR ב- Python. כמו כן, נחקור כיצד לחלץ טקסט מקובצי PDF סרוקים, להמיר אותם לקובצי PDF הניתנים לחיפוש או לעריכה, ולשחרר את הפוטנציאל של יכולות ה-OCR של Python באמצעות ספריית Aspose.OCR for Python דרך .NET.

זיהוי טקסט מ-PDF סרוק עם OCR - התקנת Python API

זיהוי תווים אופטי (OCR) היא טכנולוגיה המאפשרת המרה של תמונות או מסמכים סרוקים לטקסט קריא במכונה. על ידי ניתוח הצורות והדוגמאות של תווים בתמונה, אלגוריתמי OCR מזהים ומזהים טקסט, ומאפשרים לחלץ ולעבד את המידע הכלול בתמונה. לפני שתתחיל, עליך להתקין את Aspose.OCR עבור Python דרך .NET על ידי הורדתו מהדף New Releases או להגדיר אותו מ-PyPi על ידי הפעלת פקודת ההתקנה למטה:

pip install aspose-ocr-python-net

זיהוי טקסט מ-PDF עם OCR ב-Python

אתה יכול לזהות או לחלץ טקסט מ-PDF עם OCR ב-Python. זה יחלץ את הטקסט ממסמך PDF סרוק ביעילות כאשר השלבים שלהלן מתארים את התהליך הפשוט לזיהוי טקסט מ-PDF עם OCR ב- Python:

  1. הצג אובייקט במחלקה AsposeOcr.
  2. טען את קובץ ה-PDF הסרוק.
  3. זיהוי טקסט באמצעות OCR והדפיס את הפלט לקונסולה.

הקוד לדוגמה להלן מראה כיצד לזהות טקסט מ-PDF עם OCR ב-Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

המר PDF סרוק ל-PDF הניתן לחיפוש או עריכה עם OCR ב-Python

קובצי PDF סרוקים מכילים תמונות שבהן אינך יכול לחפש את הטקסט ולכן עליך להמיר אותו למסמך PDF הניתן לחיפוש כדי להפוך את המסמך לקריא במכונה ולעבד אותו בהמשך בהתאם. אנא בצע את השלבים הבאים כדי להמיר אותו למסמך PDF הניתן לחיפוש או לעריכה ב- Python:

  1. צור אובייקט במחלקה AsposeOcr.
  2. אתחל את מופע המחלקה [RecognitionSettings][5] והגדר את המאפיינים הנדרשים.
  3. טען את קובץ ה-PDF והגדר את טווח הדפים לזיהוי באמצעות OCR.
  4. שמור את קובץ ה-PDF הניתן לחיפוש הפלט.

הקוד לדוגמה הבא מראה כיצד להמיר קובץ PDF סרוק למסמך PDF שניתן לחיפוש עם OCR ב-Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

כאן ראוי לציין שאתה יכול לבצע OCR כל טווח של עמודים במסמך PDF. לדוגמה, זיהוי טקסט מדפים ספציפיים רק שבהם אינדקס העמודים מבוסס על אפס והפרמטר האחרון הוא הספירה של מספר הדפים שיש לעבד עם ה-API. בנוסף, ניתן להגדיר הגדרות זיהוי שונות לעיבוד מקדים של קובץ המקור כמו הסרת הרעש, הגדרת הניגודיות, בדיקת הטיה של דפי קלט וכו’ לצורך זיהוי משופר ומדויק של הטקסט עם ה-OCR.

קבל רישיון הערכה בחינם

אתה יכול לבקש [רישיון זמני] בחינם6 כדי להעריך את ה-API ללא מגבלות הערכה.

סיכום

עם העוצמה של טכנולוגיית OCR ו-Python, חילוץ טקסט מקובצי PDF סרוקים והמרתם לפורמטים הניתנים לחיפוש או לעריכה הפך לנגיש ביותר. כאן חקרנו את תהליך זיהוי טקסט PDF עם OCR ב- Python. דנו בתהליך ההתקנה וחילוץ טקסט מקובצי PDF סרוקים, הטמעת OCR והמרה של קובצי PDF סרוקים לפורמטים הניתנים לחיפוש או לעריכה. על ידי מינוף יכולות OCR ושימוש בטכניקות מתקדמות, אתה יכול לנצל את מלוא הפוטנציאל של קובצי PDF סרוקים ולהפוך אותם לנגישים וצדדיים יותר בפרויקטים שלך. בכל מקרה של אי בהירות או שאילתות כלשהן, אנא פנה אלינו דרך פורום התמיכה החינמי.

ראה גם