קבצי PDF פופולריים מכיוון שהם תומכים בטקסט, תמונות, אנימציות, סרטונים והערות רבות אחרות. עם זאת, הטקסט הוא החלק החשוב ביותר ברוב מסמכי ה-PDF. במאמר זה, נמיר קובץ PDF לקובץ TXT וקובץ TXT לפורמט PDF באמצעות C# .NET. המרה זו שימושית במצבים שבהם אתה מודאג רק מתוכן הטקסט של מסמכי PDF. הבה נעבור על הכותרות הבאות לסקירה כללית של הנושאים הבאים:

טיפ: ייתכן שתתעניין ב[ממיר טקסט ל-GIF] בחינם 4 המאפשר לך ליצור אנימציות מטקסטים.

ממיר C# TXT ל-PDF או PDF ל-TXT

המרת PDF ל-TXT כמו גם המרת קובץ TXT ל-PDF עוזרת מאוד כאשר הדאגה העיקרית שלך היא מחרוזת הטקסט המשמשת במסמך. אתה יכול להמיר פורמטים אלה של קבצים זה לזה בכמה שלבים פשוטים באמצעות Aspose.PDF for .NET API. בהיותו ממשק API מבוסס מסגרת NET. הוא מאפשר לך לעבוד עם C# כמו גם עם שפת התכנות VB.NET. אתה יכול בקלות להתקין את ה-API ביישומי ה-.NET שלך על ידי הורדת קבצי ה-DLL מ-Downloads או דרך הגלריה NuGet.

לאחר התקנת ה-API בהצלחה, הבה נמשיך להמיר קובץ PDF לקובץ TXT בשתי גישות שונות:

C# המרת PDF ל-TXT ללא עיצוב

קודם כל, נמיר את ה-PDF לטקסט ללא כל שגרת עיצוב. תוכן הטקסט יומר לצורתו כפי שהוא. אז טקסט הפלט לא יעקוב אחר כל עיצוב נכון לקובץ PDF הקלט. עליך לבצע את השלבים שלהלן כדי להמיר PDF ל-TXT ביעילות ובאמינות רבה.

  1. טען מסמך PDF לקלט
  2. אתחול מופע של StringBuilder Class
  3. חזור על כל עמוד במסמך ה-PDF
  4. קרא טקסט באמצעות מצבי TextDevice ו-Raw
  5. שמור טקסט פלט כקובץ TXT

קטע הקוד שלהלן מראה כיצד להמיר PDF לקובץ TXT באמצעות C# או VB ב-.NET Framework:

// פתח את המסמך
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// מחרוזת להחזיק טקסט שחולץ
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // צור מכשיר טקסט
        TextDevice textDevice = new TextDevice();

        // הגדר אפשרויות שונות
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // המר את הדף ושמור טקסט בזרם
        textDevice.Process(pdfPage, textStream);

        // סגור את זרם הזיכרון
        textStream.Close();

        // קבל טקסט מזרם הזיכרון
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// שמור את קובץ הטקסט
File.WriteAllText(dataDir, builder.ToString());

המר קובץ PDF ל-TXT עם שגרות עיצוב באמצעות C# או VB.NET

כעת, תן לנו לשקול את מקרה השימוש שבו אתה צריך להמיר את ה-PDF לטקסט עם כמה שגרות עיצוב. לדוגמה, הזחות פסקה, כרטיסיות, סגנונות או עיצוב לפי עמודה. אתה יכול בקלות לעבד את תוכן הטקסט של מסמך PDF לקובץ TXT עם C# על ידי ביצוע השלבים הבאים:

  1. טען קובץ PDF מקור
  2. התחל משתנה מחרוזת
  3. קרא כל עמוד באמצעות TextFormattingMode.Pure
  4. שמור את קובץ ה-TXT שהומר

קטע הקוד הבא מראה כיצד להמיר PDF לקובץ TXT עם עיצוב באמצעות שפת C# או VB.NET:

// פתח את המסמך
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// מחרוזת להחזיק טקסט שחולץ
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // צור התקן טקסט
        TextDevice textDevice = new TextDevice();

        // הגדר אפשרויות שונות
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // המר את הדף ושמור טקסט בזרם
        textDevice.Process(pdfPage, textStream);

        // סגור את זרם הזיכרון
        textStream.Close();

        // קבל טקסט מזרם הזיכרון
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// שמור את קובץ הטקסט
File.WriteAllText(dataDir, builder.ToString());

השוואה חזותית של המרת טקסט PURE ו-RAW

צילום המסך הבא הוא השוואה ויזואלית של שתי הגישות שעליהן דיברנו זה עתה. אתה יכול לשים לב שמצב Pure (החלון הכי ימני) מציג את הטקסט באותו עיצוב כמו בקובץ ה-PDF (החלון הכי שמאלי).

המרת PDF TXT csharp

צילום מסך זה של קבצי קלט ופלט מאפשר לך להחליט איזו גישת המרה מתאימה לך ביותר.

המר קובץ TXT ל-PDF באופן פרוגרמטי באמצעות C# או VB.NET

קובצי TXT מכילים לרוב תוכן טקסט עצום. אתה יכול להמיר בקלות קובץ TXT לקובץ PDF עם Aspose.PDF עבור .NET API. כל שעליך לעשות הוא לבצע את השלבים הבאים כדי לבצע המרת טקסט ל-PDF:

  1. צור מופע של מחלקה TextReader
  2. אתחול מסמך PDF והוסף עמוד ריק
  3. יצירת אובייקט TextBuilder
  4. קרא כל שורת טקסט מקובץ TXT קלט
  5. שמור קובץ PDF פלט

קטע הקוד שלהלן מסביר כיצד להמיר באופן תכנותי קובץ TXT המכיל טקסט, למסמך PDF באמצעות שפת C# או VB.NET:

// קרא קובץ TXT קלט
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// אתחול מסמך חדש
Document doc = new Document();

// הוסף דף ריק
Page page = doc.Pages.Add();
String strLine;

// הפעל את אובייקט TextBuilder
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// שמור קובץ PDF פלט
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

סיכום

במאמר זה, למדנו וחקרנו את ההמרה של הטקסט בקובץ PDF לפורמט קובץ TXT. יתר על כן, המרנו את הטקסט בקובץ TXT למסמך PDF באמצעות C# או VB ב-.NET Framework. אתה יכול להמיר קבצי PDF ו-TXT בצורה יעילה ומהירה למדי. עם זאת, אם יש לך חששות או שאילתות כלשהן, אל תהסס לכתוב לנו בחזרה ב-פורום תמיכה חינם או לחקור את תיעוד המוצר. נשמח לשמוע ממך!

ראה גם