ไฟล์ PDF ได้รับความนิยมเนื่องจากรองรับข้อความ รูปภาพ ภาพเคลื่อนไหว วิดีโอ และคำอธิบายประกอบอื่นๆ อีกมากมาย อย่างไรก็ตาม ข้อความเป็นส่วนที่สำคัญที่สุดของเอกสาร PDF ส่วนใหญ่ ในบทความนี้ เราจะแปลงไฟล์ PDF เป็นไฟล์ TXT และไฟล์ TXT เป็นรูปแบบ PDF โดยใช้ C# .NET การแปลงนี้มีประโยชน์ในสถานการณ์ที่คุณกังวลเกี่ยวกับเนื้อหาข้อความในเอกสาร PDF เท่านั้น ให้เราอ่านหัวข้อต่อไปนี้เพื่อดูภาพรวมของหัวข้อที่จะเกิดขึ้น:

เคล็ดลับ: คุณอาจสนใจ Text to GIF Converter ฟรีที่ให้คุณสร้างภาพเคลื่อนไหวจากข้อความ

TXT เป็น PDF หรือ PDF เป็น TXT Converter

การแปลง PDF เป็น TXT รวมถึงการแปลงไฟล์ TXT เป็น PDF นั้นมีประโยชน์มากเมื่อคุณกังวลหลักคือสตริงข้อความที่ใช้ในเอกสาร คุณสามารถแปลงรูปแบบไฟล์เหล่านี้เป็นรูปแบบอื่นได้ด้วยขั้นตอนง่ายๆ ไม่กี่ขั้นตอนโดยใช้ Aspose.PDF for .NET API เป็น API ที่ใช้ .NET framework ช่วยให้คุณทำงานกับ C# และภาษาโปรแกรม VB.NET ได้ คุณสามารถติดตั้ง API ในแอปพลิเคชัน .NET ได้ง่ายๆ ด้วยการดาวน์โหลดไฟล์ DLL จาก ดาวน์โหลด หรือผ่านแกลเลอรี NuGet

หลังจากติดตั้ง API เรียบร้อยแล้ว ให้เราดำเนินการแปลงไฟล์ PDF เป็นไฟล์ TXT ด้วยสองวิธีที่แตกต่างกัน:

แปลง PDF เป็นไฟล์ TEXT โดยไม่ต้องฟอร์แมตโดยใช้ C# หรือ VB.NET

ก่อนอื่น เราจะแปลง PDF เป็น Text โดยไม่มีรูทีนการจัดรูปแบบใดๆ เนื้อหาข้อความจะถูกแปลงในรูปแบบที่เป็นอยู่ ดังนั้นข้อความเอาต์พุตจะไม่เป็นไปตามการจัดรูปแบบใด ๆ เช่นเดียวกับไฟล์ PDF ที่ป้อน คุณต้องทำตามขั้นตอนด้านล่างเพื่อแปลง PDF เป็น TXT ด้วยประสิทธิภาพและความน่าเชื่อถือที่ยอดเยี่ยม

  1. โหลดเอกสาร PDF อินพุต
  2. เริ่มต้นอินสแตนซ์ของคลาส StringBuilder
  3. ทำซ้ำในแต่ละหน้าของเอกสาร PDF
  4. อ่านข้อความโดยใช้โหมด TextDevice และ Raw
  5. บันทึกข้อความเอาต์พุตเป็นไฟล์ TXT

ข้อมูลโค้ดด้านล่างแสดงวิธีแปลงไฟล์ PDF เป็น TXT โดยใช้ C# หรือ VB ใน .NET Framework:

// เปิดเอกสาร
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// สตริงเพื่อเก็บข้อความที่แยกออกมา
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // สร้างอุปกรณ์ข้อความ
        TextDevice textDevice = new TextDevice();

        // ตั้งค่าตัวเลือกต่างๆ
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // แปลงหน้าและบันทึกข้อความไปยังสตรีม
        textDevice.Process(pdfPage, textStream);

        // ปิดสตรีมหน่วยความจำ
        textStream.Close();

        // รับข้อความจากสตรีมหน่วยความจำ
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// บันทึกไฟล์ข้อความ
File.WriteAllText(dataDir, builder.ToString());

แปลงไฟล์ PDF เป็น TXT ด้วยรูทีนการจัดรูปแบบโดยใช้ C# หรือ VB.NET

ตอนนี้ ให้เราพิจารณากรณีการใช้งานที่คุณต้องการแปลง PDF เป็นข้อความด้วยรูทีนการจัดรูปแบบเล็กน้อย ตัวอย่างเช่น การเยื้องย่อหน้า แท็บ สไตล์ หรือการจัดรูปแบบตามคอลัมน์ คุณสามารถแสดงเนื้อหาข้อความของเอกสาร PDF เป็นไฟล์ TXT ด้วย C# ได้โดยทำตามขั้นตอนด้านล่าง:

  1. โหลดไฟล์ PDF ที่มา
  2. เริ่มต้นตัวแปรสตริง
  3. อ่านแต่ละหน้าด้วย TextFormattingMode.Pure
  4. บันทึกไฟล์ TXT ที่แปลงแล้ว

ข้อมูลโค้ดต่อไปนี้แสดงวิธีการแปลงไฟล์ PDF เป็น TXT ด้วยการจัดรูปแบบโดยใช้ภาษา C# หรือ VB.NET:

// เปิดเอกสาร
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// สตริงเพื่อเก็บข้อความที่แยกออกมา
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // สร้างอุปกรณ์ข้อความ
        TextDevice textDevice = new TextDevice();

        // ตั้งค่าตัวเลือกต่างๆ
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // แปลงหน้าและบันทึกข้อความไปยังสตรีม
        textDevice.Process(pdfPage, textStream);

        // ปิดสตรีมหน่วยความจำ
        textStream.Close();

        // รับข้อความจากสตรีมหน่วยความจำ
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// บันทึกไฟล์ข้อความ
File.WriteAllText(dataDir, builder.ToString());

การเปรียบเทียบภาพการแปลงข้อความ PURE และ RAW

ภาพหน้าจอต่อไปนี้เป็นการเปรียบเทียบภาพของสองวิธีที่เราเพิ่งกล่าวถึง คุณจะสังเกตได้ว่า Pure mode (หน้าต่างขวาสุด) จะแสดง Text ที่มีรูปแบบเหมือนกับในไฟล์ PDF (หน้าต่างซ้ายสุด)

แปลง PDF TXT csharp

ภาพหน้าจอของไฟล์อินพุตและเอาต์พุตนี้ช่วยให้คุณตัดสินใจได้ว่าวิธีการแปลงใดที่เหมาะกับคุณที่สุด

แปลงไฟล์ TXT เป็น PDF โดยทางโปรแกรมโดยใช้ C# หรือ VB.NET

ไฟล์ TXT มักจะมีเนื้อหาข้อความขนาดใหญ่ คุณสามารถแปลงไฟล์ TXT เป็นไฟล์ PDF ได้อย่างง่ายดายด้วย Aspose.PDF for .NET API เพียงทำตามขั้นตอนด้านล่างเพื่อทำการแปลงข้อความเป็น PDF:

  1. สร้างอินสแตนซ์ของคลาส TextReader
  2. เริ่มต้นเอกสาร PDF และเพิ่มหน้าว่าง
  3. ยกตัวอย่างวัตถุ TextBuilder
  4. อ่านข้อความแต่ละบรรทัดจากไฟล์ TXT อินพุต
  5. บันทึกไฟล์ PDF ที่ส่งออก

ข้อมูลโค้ดด้านล่างอธิบายวิธีการแปลงไฟล์ TXT ที่มีข้อความเป็นเอกสาร PDF โดยทางโปรแกรมโดยใช้ภาษา C# หรือ VB.NET:

// อ่านไฟล์ TXT อินพุต
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// เริ่มต้นเอกสารใหม่
Document doc = new Document();

// เพิ่มหน้าว่าง
Page page = doc.Pages.Add();
String strLine;

// เริ่มต้นวัตถุ TextBuilder
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// บันทึกไฟล์ PDF ที่ส่งออก
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

บทสรุป

ในบทความนี้ เราได้เรียนรู้และสำรวจการแปลงข้อความในไฟล์ PDF เป็นรูปแบบไฟล์ TXT นอกจากนี้ เราได้แปลงข้อความในไฟล์ TXT เป็นเอกสาร PDF โดยใช้ C# หรือ VB ใน .NET Framework คุณสามารถแปลงไฟล์ PDF และ TXT ได้อย่างมีประสิทธิภาพและรวดเร็ว อย่างไรก็ตาม หากคุณมีข้อกังวลหรือข้อสงสัยใดๆ โปรดอย่าลังเลที่จะตอบกลับมาหาเราที่ ฟอรัมการสนับสนุนฟรี หรือสำรวจ เอกสารประกอบผลิตภัณฑ์ เราชอบที่จะได้ยินจากคุณ!

ดูสิ่งนี้ด้วย