קובץ PDF הוא אחד המסמכים העסקיים הנפוצים ביותר. במקרים מסוימים, ייתכן שנצטרך לקרוא מסמכי PDF סרוקים באופן תוכנתי. הקושי לחלץ טקסט מקובצי PDF סרוקים הוביל לפיתוח כלים המקלים על קריאה ושליפה של טקסט ממסמכי PDF כאלה. בהתאם לתוכן המסמך שלך, חילוץ טקסט מקובצי PDF יכול להיות שימושי ממספר סיבות. במאמר זה נלמד כיצד לבצע OCR מסמכי PDF ולחלץ טקסט מ-PDF ב-C#.
הנושאים הבאים יכוונו במאמר זה:
- OCR PDF לטקסט C# API
- OCR PDF וחילוץ טקסט מ-PDF
- בצע OCR ב-PDF ושמור טקסט
- OCR PDF לקובץ Word
- OCR PDF ל-JSON
OCR PDF לטקסט C# API
אנו נשתמש ב-Aspose.OCR for .NET API כדי לבצע OCR במסמך PDF. זה יכול לזהות תמונות סרוקות, תמונות סמארטפון, צילומי מסך ואזורי תמונות. ה-API מחזיר תוצאות טקסט מזוהות בפורמטים הפופולריים ביותר של מסמכים וחילופי נתונים. בנוסף להמרת תמונות לטקסט, ה-API יכול גם ליצור קובצי PDF הניתנים לחיפוש על סמך סריקות. יתר על כן, הוא מסוגל לתקן אוטומטית שגיאות כתיב בטקסטים מזוהים.
ה-API מספק את המחלקה AsposeOcr המספקת שיטות שונות לביצוע פעולות OCR. הוא מספק את השיטה RecognizePdf(string, DocumentRecognitionSettings) לזיהוי הטקסט ממסמך ה-PDF שסופק. המחלקה DocumentRecognitionSettings של ה-API מספקת הגדרות לתהליך זיהוי PDF. המחלקה RecognitionResult מייצגת את התוצאות של זיהוי התמונה.
אנא הורד את ה-DLL של ה-API או התקן אותו באמצעות NuGet.
PM> Install-Package Aspose.OCR
OCR PDF וחילוץ טקסט מ-PDF ב-C#
אנו יכולים לבצע OCR על מסמכי PDF ולחלץ את הטקסט המוכר על ידי ביצוע השלבים המפורטים להלן:
- ראשית, צור מופע של המחלקה AsposeOcr.
- לאחר מכן, אתחול אובייקט מהמחלקה DocumentRecognitionSettings.
- לאחר מכן, ציין את השפה שתשמש עבור OCR.
- לאחר מכן, קבל את RecognitionResult על ידי קריאה לשיטת RecognizePdf() . זה לוקח את נתיב התמונה ואת האובייקט DocumentRecognitionSettings כארגומנטים.
- לבסוף, בצע סיבוב ברשימת RecognitionResult והצג את הטקסט המזוהה.
הקוד לדוגמה הבא מראה כיצד לבצע OCR מסמכי PDF ולחלץ את הטקסט המוכר ב-C#.
// דוגמה זו מדגימה כיצד לבצע OCR מסמכי PDF ולחלץ את הטקסט המוכר.
// אתחול מנוע ה-PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// אתחול הגדרות זיהוי
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ציין שפה עבור OCR. ריבוי שפות כברירת מחדל
recognitionSettings.Language = Language.Eng;
// זיהוי טקסט מ-PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// הצג את הטקסט המוכר
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
בצע OCR ב-PDF ושמור טקסט ב-C#
אנו יכולים לבצע OCR על מסמכי PDF ולשמור את הטקסט המוכר על ידי ביצוע השלבים המפורטים להלן:
- ראשית, צור מופע של המחלקה AsposeOcr.
- לאחר מכן, אתחול אובייקט מהמחלקה DocumentRecognitionSettings.
- לאחר מכן, ציין את השפה שתשמש עבור OCR.
- לאחר מכן, קרא למתודה RecognizePdf() כדי לקבל את RecognitionResult. זה לוקח את נתיב התמונה ואת האובייקט DocumentRecognitionSettings כארגומנטים.
- לבסוף, שמור את הטקסט באמצעות שיטת SaveMultipageDocument() . הוא לוקח את נתיב קובץ הפלט, את האובייקט SaveFormat ו-RecognitionResult כארגומנטים.
הקוד לדוגמה הבא מראה כיצד לבצע OCR מסמכי PDF ולשמור את הטקסט המזוהה ב-C#.
// דוגמה זו מדגימה כיצד לבצע OCR מסמכי PDF ולחלץ את הטקסט המוכר.
// אתחול מנוע ה-PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// אתחול הגדרות זיהוי
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ציין שפה עבור OCR. ריבוי שפות כברירת מחדל
recognitionSettings.Language = Language.Eng;
// זיהוי טקסט מ-PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// שמור את הטקסט המזוהה
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR PDF והמרת PDF סרוק ל-Word ב-C#
אנו יכולים לבצע OCR על מסמכי PDF סרוקים ולשמור את הטקסט המזוהה במסמך Word על ידי ביצוע השלבים שהוזכרו קודם לכן. עם זאת, אנחנו רק צריכים לציין את SaveFormat.Docx בשלב האחרון.
הקוד לדוגמה הבא מראה כיצד לבצע OCR PDF ולשמור את הטקסט המזוהה כמסמך Word ב-C#.
// דוגמה זו מדגימה כיצד לבצע OCR מסמכי PDF ולשמור את הטקסט המזוהה כ-DOCX.
// אתחול מנוע ה-PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// אתחול הגדרות זיהוי
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ציין שפה עבור OCR. ריבוי שפות כברירת מחדל
recognitionSettings.Language = Language.Eng;
// זיהוי טקסט מ-PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// שמור את הטקסט המוכר כ-DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF והמרת PDF ל-JSON ב-C#
אנו יכולים לבצע OCR על מסמכי PDF ולשמור את הטקסט המוכר בקובץ JSON על ידי ביצוע השלבים שהוזכרו קודם לכן. עם זאת, אנחנו רק צריכים לציין את SaveFormat.Json בשלב האחרון.
הקוד לדוגמה הבא מראה כיצד לבצע OCR PDF ולשמור את הטקסט המזוהה כקובץ JSON ב-C#.
// דוגמה זו מדגימה כיצד לבצע OCR מסמכי PDF ולשמור את הטקסט המזוהה כ-JSON.
// אתחול מנוע ה-PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// אתחול הגדרות זיהוי
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// ציין שפה עבור OCR. ריבוי שפות כברירת מחדל
recognitionSettings.Language = Language.Eng;
// זיהוי טקסט מ-PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// שמור את הטקסט המזוהה כ-JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
קבל רישיון הערכה בחינם
אתה יכול לקבל רישיון זמני בחינם כדי לנסות את הספרייה ללא מגבלות הערכה.
סיכום
במאמר זה, למדנו כיצד לבצע OCR על מסמכי PDF ולחלץ טקסט מ-PDF ב-C#. ראינו גם כיצד לשמור את הטקסט המוכר כקובץ TXT, DOCX ו-JSON. חוץ מזה, אתה יכול ללמוד עוד על Aspose.OCR עבור .NET API באמצעות תיעוד. בכל מקרה של אי בהירות, אנא אל תהסס לפנות אלינו בפורום שלנו.