PDF סרוק ל- Word OCR csharp

קבצי PDF סרוקים מכילים תמונות שבהן לא ניתן לבחור או לערוך טקסט. במצבים מסוימים, ייתכן שיהיה עליך להמיר PDF סרוק למסמך Word. במאמר זה, תלמד כיצד להמיר PDF סרוק למסמך Word בפורמט DOCX או DOC באופן תכנותי באמצעות C#:

ממיר PDF ל- Word DOCX סרוק - התקנת API של C#

אתה יכול לעבוד עם קובצי PDF סרוקים על ידי ביצוע פעולות OCR עם Aspose.OCR for .NET API ולאחר מכן ליצור מסמך Word באמצעות Aspose.Words for .NET API באופן פרוגרמטי באמצעות C#. אתה יכול להגדיר את ממשקי ה-API על ידי הורדת קבצי ה-DLL מ-גרסאות חדשות, או עם פקודות ההתקנה הבאות של NuGet:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

המרת PDF סרוק למסמך Word באופן תוכניתי באמצעות C#

ניתן להמיר קבצי PDF סרוקים למסמכי Word על ידי זיהוי הטקסט בצורה אופטית. פעולות OCR ממירות את ה-PDF הסרוק לטקסט ולאחר מכן נוצר מסמך Word בפורמט DOC או DOCX. אנא בצע את השלבים הבאים כדי להמיר PDF סרוק למסמך Word:

  1. אתחול מופע המחלקה AsposeOcr.
  2. זיהוי תמונות מ-PDF עם המחלקה DocumentRecognitionSettings.
  3. אתחול אובייקט המחלקה StringBuilder ושמור את הטקסט.
  4. אתחול מסמך Word עם המחלקה Document.
  5. ציין עיצוב גופן ופסקה.
  6. שמור את מסמך הפלט של Word כקובץ DOCX או DOC.

קטע הקוד הבא מראה כיצד להמיר קובץ PDF סרוק למסמך Word באופן תוכנתי באמצעות C#:

// אתחול מופע מחלקה AsposeOcr
AsposeOcr api = new AsposeOcr();

// זיהוי תמונות מ-PDF עם מחלקה DocumentRecognitionSettings    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// שמור תוצאות זיהוי
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// אתחול אובייקט המחלקה StringBuilder
StringBuilder text = new StringBuilder();

// שמור את התוצאה כטקסט
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// אתחול מסמך Word עם מחלקה Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// ציין עיצוב גופן
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// ציין עיצוב פסקה
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// שמור מסמך פלט וורד. 
doc.Save("Scanned_PDF_to_Word.docx");

קבל רישיון הערכה בחינם

אתה יכול לבדוק את ממשקי ה-API בתפוסה מלאה על ידי בקשת רישיון זמני ללא תשלום.

סיכום

במאמר זה, למדת כיצד להמיר קובץ PDF סרוק למסמך Word בפורמט DOCX או DOC באופן תכנותי באמצעות C#. יתר על כן, אתה יכול לחקור כמה תכונות אחרות הקשורות ל-OCR על ידי ביקור בתיעוד. אנא אל תהסס ליצור איתנו קשר בפורום בכל שאלה.

ראה גם

טיפ: אם אי פעם תצטרך לקבל מסמך Word ממצגת PowerPoint, תוכל להשתמש בממיר Aspose מצגת למסמך Word.