File PDF populer karena mendukung teks, gambar, animasi, video, dan banyak anotasi lainnya. Namun, teks adalah bagian terpenting dari sebagian besar dokumen PDF. Pada artikel ini, kami akan mengonversi file PDF menjadi TXT dan file TXT ke format PDF menggunakan C# .NET. Konversi ini berguna dalam situasi di mana Anda hanya memperhatikan konten teks dari dokumen PDF. Mari kita telusuri tajuk berikut untuk ikhtisar topik yang akan datang:

Kiat: Anda mungkin tertarik dengan [Konverter Teks ke GIF] gratis4 yang memungkinkan Anda membuat animasi dari teks.

Konverter TXT ke PDF atau PDF ke TXT

Konversi PDF ke TXT serta konversi file TXT ke PDF sangat membantu ketika perhatian utama Anda adalah string teks yang digunakan dalam dokumen. Anda dapat mengonversi format file ini menjadi satu sama lain dengan beberapa langkah sederhana menggunakan Aspose.PDF for .NET API. Menjadi API berbasis .NET framework, memungkinkan Anda bekerja dengan C# serta bahasa pemrograman VB.NET. Anda dapat dengan mudah menginstal API di aplikasi .NET dengan mengunduh file DLL dari Downloads atau melalui galeri NuGet.

Setelah berhasil menginstal API, mari kita lanjutkan untuk mengonversi file PDF ke file TXT dengan dua pendekatan berbeda:

Konversi File PDF ke TEXT tanpa Memformat menggunakan C # atau VB.NET

Pertama-tama, kami akan mengonversi PDF ke Teks tanpa rutinitas pemformatan apa pun. Isi teks akan dikonversi dalam bentuk apa adanya. Jadi teks keluaran tidak akan mengikuti pemformatan apa pun pada file PDF masukan. Anda harus mengikuti langkah-langkah di bawah ini untuk mengonversi PDF ke TXT dengan efisiensi dan keandalan yang tinggi.

  1. Muat dokumen PDF masukan
  2. Inisialisasi sebuah instance dari Kelas StringBuilder.
  3. Ulangi setiap halaman dokumen PDF
  4. Baca Teks menggunakan mode TextDevice dan Raw.
  5. Simpan Teks keluaran sebagai file TXT

Cuplikan kode di bawah ini menunjukkan cara mengonversi file PDF ke TXT menggunakan C# atau VB di .NET Framework:

// Buka dokumen
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// String untuk menahan teks yang diekstrak
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // Buat perangkat teks
        TextDevice textDevice = new TextDevice();

        // Tetapkan opsi yang berbeda
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // Konversi halaman dan simpan teks ke aliran
        textDevice.Process(pdfPage, textStream);

        // Tutup aliran memori
        textStream.Close();

        // Dapatkan teks dari aliran memori
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// Simpan file teks
File.WriteAllText(dataDir, builder.ToString());

Konversi File PDF ke TXT dengan Rutin Pemformatan menggunakan C # atau VB.NET

Sekarang, mari kita pertimbangkan kasus penggunaan di mana Anda perlu mengubah PDF menjadi Teks dengan sedikit rutinitas pemformatan. Misalnya, lekukan paragraf, tab, gaya, atau pemformatan berdasarkan kolom. Anda dapat dengan mudah merender konten teks dokumen PDF ke file TXT dengan C# dengan mengikuti langkah-langkah di bawah ini:

  1. Muat File PDF sumber
  2. Inisiasi variabel string
  3. Baca setiap halaman dengan TextFormattingMode.Pure
  4. Simpan file TXT yang dikonversi

Cuplikan kode berikut menunjukkan cara mengonversi file PDF ke TXT dengan pemformatan menggunakan bahasa C# atau VB.NET:

// Buka dokumen
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// String untuk menahan teks yang diekstrak
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // Buat perangkat teks
        TextDevice textDevice = new TextDevice();

        // Tetapkan opsi yang berbeda
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // Konversi halaman dan simpan teks ke aliran
        textDevice.Process(pdfPage, textStream);

        // Tutup aliran memori
        textStream.Close();

        // Dapatkan teks dari aliran memori
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// Simpan file teks
File.WriteAllText(dataDir, builder.ToString());

Perbandingan Visual Konversi Teks MURNI dan RAW

Tangkapan layar berikut adalah perbandingan visual dari dua pendekatan yang baru saja kita diskusikan. Anda dapat melihat bahwa mode Murni (jendela paling kanan) menampilkan Teks dengan format yang sama seperti pada file PDF (jendela paling kiri).

Mengkonversi PDF TXT csharp

Tangkapan layar file input dan output ini memungkinkan Anda memutuskan pendekatan konversi mana yang paling cocok untuk Anda.

Konversikan File TXT ke PDF Secara terprogram menggunakan C# atau VB.NET

File TXT sering kali berisi konten teks yang sangat besar. Anda dapat dengan mudah mengonversi file TXT ke file PDF dengan Aspose.PDF for .NET API. Cukup ikuti langkah-langkah di bawah ini untuk melakukan konversi teks ke PDF:

  1. Buat instance dari kelas TextReader.
  2. Inisialisasi dokumen PDF dan Tambahkan Halaman Kosong
  3. Instansiasi objek TextBuilder.
  4. Baca setiap baris teks dari file TXT masukan
  5. Simpan file PDF keluaran

Cuplikan kode di bawah ini menjelaskan cara mengonversi file TXT yang berisi teks secara terprogram, ke dokumen PDF menggunakan bahasa C# atau VB.NET:

// Baca file TXT masukan
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// Inisialisasi Dokumen baru
Document doc = new Document();

// Tambahkan halaman kosong
Page page = doc.Pages.Add();
String strLine;

// Memulai objek TextBuilder
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// Simpan file PDF keluaran
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

Kesimpulan

Pada artikel ini, kami telah mempelajari dan mengeksplorasi konversi teks dalam file PDF ke format file TXT. Selain itu, kami telah mengonversi teks dalam file TXT ke dokumen PDF menggunakan C# atau VB di .NET Framework. Anda dapat mengonversi file PDF dan TXT dengan cukup efisien dan cepat. Namun, jika Anda memiliki masalah atau pertanyaan, silakan hubungi kami di Forum Dukungan Gratis atau jelajahi Dokumentasi Produk. Kami akan senang mendengar dari Anda!

Lihat juga