PDF סרוק לטקסט csharp

קובץ PDF סרוק מכיל תמונה שטוחה אחת או יותר שנלכדה על ידי סורק או מצלמה. אינך יכול להעתיק, להדביק או לעבד מידע מקבצים כאלה. מאמר זה עוסק כיצד להמיר PDF סרוק לטקסט ב-C#.

המרת PDF לטקסט סרוקה - התקנת API של C#

Aspose.OCR for .NET API משמש לביצוע פעולות OCR. זה יכול לזהות את התווים באופן אופטי מתוך תמונות או מסמכי PDF סרוקים. נא להגדיר את ה-API על ידי הורדת קובץ ה-DLL מהקטע מהדורות חדשות, או עם פקודת ההתקנה הבאה של NuGet.

PM> Install-Package Aspose.OCR

המרת PDF סרוק למחרוזת טקסט ב-C#

ניתן להמיר קובץ PDF סרוק למחרוזת טקסט על ידי ביצוע פעולות OCR עליו. עליך לבצע את השלבים הבאים כדי להדפיס את הטקסט ממסמך PDF סרוק:

  1. ציין את ההגדרה לזיהוי קובץ ה-PDF הסרוק.
  2. אתחול מופע המחלקה AsposeOcr.
  3. אתחול אובייקט המחלקה RecognitionResult.
  4. הדפס את הטקסט לאחר זיהויו מקובץ PDF סרוק.

קטע הקוד הבא מראה כיצד לזהות טקסט מ-PDF סרוק ב-C#:

// אתחול מופע מחלקה AsposeOcr
AsposeOcr api = new AsposeOcr();

// ציין את ההגדרה לזיהוי קובץ ה-PDF הסרוק
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// אתחול אובייקט המחלקה RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// הדפס טקסט לאחר זיהויו מ-PDF סרוק
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

המרת PDF סרוק לקובץ TXT באופן פרוגרמטי ב-C#

ניתן להמיר קובץ PDF סרוק לקובץ TXT באמצעות השלבים הבאים:

  1. יצירת אובייקט מחלקה AsposeOcr.
  2. צור אובייקט מחלקה DocumentRecognitionSettings.
  3. שמור תוצאות זיהוי ואתחל את מופע המחלקה StringBuilder.
  4. שמור את התוצאה בקובץ TXT.

קטע הקוד שלהלן מסביר כיצד להמיר קובץ PDF סרוק לקובץ TXT באופן תוכנתי ב-C#:

// אתחול מופע מחלקה AsposeOcr
AsposeOcr api = new AsposeOcr();

// זיהוי תמונות מ-PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// שמור תוצאות זיהוי
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// אתחול אובייקט המחלקה StringBuilder
StringBuilder builder = new StringBuilder();

// שמור את התוצאה בקובץ TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

קבל רישיון הערכה בחינם

אתה יכול לבקש רישיון הערכה בחינם כדי לבדוק את ה-API במלוא הקיבול שלו.

סיכום

במאמר זה, למדת כיצד להמיר קובץ PDF סרוק למחרוזת טקסט או קובץ טקסט באופן תוכנתי באמצעות C#. יתר על כן, תוכל לבדוק מספר תכונות אחרות של ה-API על ידי ביקור בתיעוד. אנא אל תהסס ליצור איתנו קשר בפורום בכל מקרה של חששות.

ראה גם