PDF ל-Word OCR Python

המרת קובצי PDF סרוקים למסמכי Word מציעה מספר יתרונות כמו עריכת הטקסט בתוך המסמך, מה שמקל על ביצוע שינויים או עדכונים. זה גם מאפשר חיפוש טקסט, וזה לא יסולא בפז עבור מסמכים גדולים או בעת ביצוע מחקר. יתר על כן, אתה יכול גם לבצע בדיקת איות לתיקון שגיאות הקלדה או מילים שגוי איות בזמן ביצוע OCR ב- Python. בהתאם לכך, מאמר זה מסביר כיצד להמיר PDF סרוק למסמך Word עם OCR ב- Python באמצעות ספריית Aspose.OCR for Python דרך .NET.

PDF ל-Word עם OCR - התקנת Python API

לפני שנצלול לתוך זיהוי טקסט, הבה נוודא שהגדרת הסביבה הדרושה להפעלת OCR ב- Python. ודא שהתקנת Python במערכת שלך, רצוי גרסה 3.x ואילך, יחד עם עורך קוד אמין או סביבת פיתוח משולבת (IDE) כגון Visual Studio Code או IDLE וכו’. לאחר מכן עליך להגדיר את Aspose.OCR עבור Python דרך NET תוך גישה אליו מהקטע מהדורות חדשות או מ-PyPi עם פקודת ההתקנה הבאה:

pip install aspose-ocr-python-net

המר PDF סרוק ל-Word עם OCR ב-Python

אתה יכול להמיר PDF סרוק ל-Word עם OCR על ידי ביצוע השלבים הבאים:

  1. אתחול ה-API באמצעות המחלקה AsposeOcr.
  2. הגדר הגדרות שונות עבור הזיהוי.
  3. זהה את הטקסט באמצעות OCR ושמור את קובץ הפלט DOCX Word.

קטע הקוד הבא מדגים כיצד להמיר PDF סרוק ל-Word עם OCR ב-Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF ל-Word עם OCR ובדיקת איות ב-Python

מנועי OCR עשויים לפעמים לייצר אי דיוקים, במיוחד כאשר עוסקים בפריסות מורכבות, כתב יד או סריקות באיכות נמוכה. במקרים כאלה, תיקון האיות ממלא תפקיד מכריע בשיפור הדיוק של הטקסט שהומר. סעיף זה מתייחס במיוחד להמרת PDF ל-Word עם OCR ותכונת בדיקת האיות ב- Python. עליך לבצע את השלבים הבאים כדי לעמוד בדרישות אלה:

  1. אתחול מופע של מחלקה AsposeOcr.
  2. הגדר מאפיינים שונים באמצעות המחלקה RecognitionSettings.
  3. זהה את ה-PDF באמצעות OCR ובדוק את האיות של המחרוזת שחולצה.
  4. ייצא את מסמך הפלט של Word בפורמט DOCX.

הקוד לדוגמה להלן מסביר כיצד להמיר קובץ PDF למסמך Word עם OCR ב- Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

קבל רישיון הערכה בחינם

אתה יכול לקבל רישיון זמני בחינם כדי למנוע מגבלות הערכה וסימני מים.

סיכום

בפוסט זה בבלוג, בדקנו כיצד להמיר קובצי PDF סרוקים למסמכי Word באמצעות OCR ב- Python. דנו בחשיבות ה-OCR והיתרונות שלו, סיפקנו מדריך שלב אחר שלב להגדרת הסביבה, חילוץ טקסט ממסמך PDF בגישות שונות תוך ציון מספר הגדרות ושמירתו במסמך Word. מדריך זה מאפשר לך להפוך את ההמרה של קובצי PDF סרוקים למסמכי Word הניתנים לעריכה באמצעות Python ו-OCR, תוך פתיחת עולם של אפשרויות לחילוץ נתונים ומניפולציה. במקרה שאתה צריך לדון בכל החששות שלך, אל תהסס לכתוב לנו בפורום התמיכה החינמית.

ראה גם