ملفات PDF شائعة لأنها تدعم النصوص والصور والرسوم المتحركة ومقاطع الفيديو والعديد من التعليقات التوضيحية الأخرى. ومع ذلك ، فإن النص هو أهم جزء في غالبية مستندات PDF. في هذه المقالة ، سنقوم بتحويل PDF إلى ملف TXT وملف TXT إلى تنسيق PDF باستخدام C# .NET. يكون هذا التحويل مفيدًا في المواقف التي تهتم فيها فقط بالمحتويات النصية لمستندات PDF. دعنا ننتقل إلى العناوين التالية للحصول على نظرة عامة حول الموضوعات القادمة:

نصيحة: قد تكون مهتمًا بـ Text to GIF Converter المجاني الذي يسمح لك بإنشاء رسوم متحركة من النصوص.

TXT إلى PDF أو PDF to TXT Converter

يعد تحويل PDF إلى TXT وكذلك تحويل ملف TXT إلى PDF مفيدًا للغاية عندما يكون اهتمامك الرئيسي هو السلسلة النصية المستخدمة في المستند. يمكنك تحويل تنسيقات الملفات هذه إلى بعضها البعض بخطوات بسيطة قليلة باستخدام Aspose.PDF for .NET API. نظرًا لكونه واجهة برمجة تطبيقات قائمة على إطار عمل .NET ، فإنه يتيح لك العمل مع C# بالإضافة إلى لغة برمجة VB.NET. يمكنك بسهولة تثبيت API في تطبيقات .NET الخاصة بك إما عن طريق تنزيل ملفات DLL من التنزيلات أو عبر معرض NuGet.

بعد تثبيت API بنجاح ، دعنا ننتقل إلى تحويل ملف PDF إلى ملف TXT بطريقتين مختلفتين:

قم بتحويل ملف PDF إلى ملف TEXT بدون تنسيق باستخدام C# أو VB.NET

بادئ ذي بدء ، سنقوم بتحويل ملف PDF إلى نص بدون أي إجراء تنسيق. سيتم تحويل محتويات النص في شكلها كما هي. لذلك لن يتبع النص الناتج أي تنسيق اعتبارًا من ملف PDF المدخل. تحتاج إلى اتباع الخطوات أدناه لتحويل PDF إلى TXT بكفاءة وموثوقية كبيرة.

  1. تحميل وثيقة PDF الإدخال
  2. تهيئة مثيل لفئة StringBuilder
  3. كرر خلال كل صفحة من صفحات وثيقة PDF
  4. قراءة النص باستخدام وضع TextDevice و Raw
  5. حفظ النص الناتج كملف TXT

يوضح مقتطف الشفرة أدناه كيفية تحويل PDF إلى ملف TXT باستخدام C# أو VB في .NET Framework:

// افتح المستند
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// سلسلة لعقد النص المستخرج
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // إنشاء جهاز نصي
        TextDevice textDevice = new TextDevice();

        // اضبط الخيارات المختلفة
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // قم بتحويل الصفحة وحفظ النص في الدفق
        textDevice.Process(pdfPage, textStream);

        // إغلاق دفق الذاكرة
        textStream.Close();

        // احصل على نص من دفق الذاكرة
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// احفظ الملف النصي
File.WriteAllText(dataDir, builder.ToString());

قم بتحويل ملف PDF إلى ملف TXT باستخدام إجراءات التنسيق باستخدام C# أو VB.NET

الآن ، دعنا نفكر في حالة الاستخدام حيث تحتاج إلى تحويل PDF إلى نص بقليل من إجراءات التنسيق. على سبيل المثال ، المسافات البادئة للفقرة أو علامات الجدولة أو الأنماط أو تنسيق العمود. يمكنك بسهولة عرض المحتويات النصية لمستند PDF إلى ملف TXT باستخدام C# باتباع الخطوات التالية:

  1. تحميل ملف PDF المصدر
  2. بدء متغير سلسلة
  3. اقرأ كل صفحة باستخدام TextFormattingMode.Pure
  4. احفظ ملف TXT المحول

يوضح مقتطف الشفرة التالي كيفية تحويل PDF إلى ملف TXT بالتنسيق باستخدام لغة C# أو VB.NET:

// افتح المستند
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// سلسلة لعقد النص المستخرج
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // إنشاء جهاز نصي
        TextDevice textDevice = new TextDevice();

        // اضبط الخيارات المختلفة
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // قم بتحويل الصفحة وحفظ النص في الدفق
        textDevice.Process(pdfPage, textStream);

        // إغلاق دفق الذاكرة
        textStream.Close();

        // احصل على نص من دفق الذاكرة
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// احفظ الملف النصي
File.WriteAllText(dataDir, builder.ToString());

مقارنة بصرية لتحويل نص PURE و RAW

لقطة الشاشة التالية هي مقارنة مرئية بين الطريقتين اللتين ناقشناهما للتو. يمكنك ملاحظة أن الوضع النقي (أقصى اليمين) يعرض النص بنفس التنسيقات كما في ملف PDF (النافذة في أقصى اليسار).

تحويل ملفات PDF TXT csharp

تتيح لك لقطة الشاشة هذه لملفات الإدخال والإخراج تحديد أسلوب التحويل الذي يناسبك بشكل أفضل.

قم بتحويل ملف TXT إلى PDF برمجيًا باستخدام C# أو VB.NET

غالبًا ما تحتوي ملفات TXT على محتويات نصية ضخمة. يمكنك بسهولة تحويل ملف TXT إلى ملف PDF باستخدام Aspose.PDF for .NET API. ما عليك سوى اتباع الخطوات أدناه لإجراء تحويل النص إلى PDF:

  1. قم بإنشاء مثيل لفئة TextReader
  2. قم بتهيئة مستند PDF وإضافة صفحة فارغة
  3. إنشاء كائن TextBuilder
  4. اقرأ كل سطر من النص من ملف TXT للإدخال
  5. حفظ ملف PDF الناتج

يوضح مقتطف الشفرة أدناه كيفية تحويل ملف TXT الذي يحتوي على نص برمجيًا ، إلى مستند PDF باستخدام لغة C# أو VB.NET:

// قراءة ملف TXT الإدخال
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// تهيئة المستند الجديد
Document doc = new Document();

// أضف صفحة فارغة
Page page = doc.Pages.Add();
String strLine;

// بدء كائن TextBuilder
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// حفظ ملف PDF الناتج
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

استنتاج

في هذه المقالة ، تعلمنا واستكشفنا تحويل النص الموجود في ملف PDF إلى تنسيق ملف TXT. علاوة على ذلك ، قمنا بتحويل النص الموجود في ملف TXT إلى مستند PDF باستخدام C# أو VB في .NET Framework. يمكنك تحويل ملفات PDF و TXT بكفاءة وسرعة تامة. ومع ذلك ، إذا كانت لديك أية مخاوف أو استفسارات ، فلا تتردد في مراسلتنا على منتدى الدعم المجاني أو استكشاف وثائق المنتج. كنا نحب أن نسمع منك!

أنظر أيضا