PDF Dateien sind beliebt, weil sie Text, Bilder, Animationen, Videos und viele andere Anmerkungen unterstützen. Der Text ist jedoch der wichtigste Teil der meisten PDF Dokumente. In diesem Artikel konvertieren wir PDF in eine TXT Datei und eine TXT Datei in das PDF Format mit C# .NET. Diese Konvertierung ist praktisch, wenn Sie sich nur mit dem Textinhalt von PDF Dokumenten befassen. Lassen Sie uns die folgenden Überschriften durchgehen, um einen Überblick über bevorstehende Themen zu erhalten:

Tipp: Möglicherweise interessieren Sie sich für einen kostenlosen Text to GIF Converter, mit dem Sie Animationen aus Texten generieren können.

TXT zu PDF oder PDF zu TXT Konverter

Die PDF zu TXT Konvertierung sowie die TXT Datei zu PDF Konvertierung ist sehr hilfreich, wenn Ihr Hauptanliegen die im Dokument verwendete Textzeichenfolge ist. Sie können diese Dateiformate mit wenigen einfachen Schritten mit der API Aspose.PDF for .NET ineinander konvertieren. Da es sich um eine .NET-Framework-basierte API handelt, können Sie sowohl mit C# als auch mit der Programmiersprache VB.NET arbeiten. Sie können die API einfach in Ihren .NET Anwendungen installieren, indem Sie entweder die DLL Dateien von Downloads oder über die NuGet-Galerie herunterladen.

Lassen Sie uns nach erfolgreicher Installation der API fortfahren, eine PDF Datei mit zwei verschiedenen Ansätzen in eine TXT Datei zu konvertieren:

Konvertieren Sie PDF in TEXT Datei ohne Formatierung mit C# oder VB.NET

Zunächst konvertieren wir das PDF ohne Formatierungsroutine in Text. Die Textinhalte werden in ihre Ist-Form konvertiert. Der Ausgabetext folgt also keiner Formatierung der Eingabe PDF Datei. Sie müssen die folgenden Schritte ausführen, um PDF mit großer Effizienz und Zuverlässigkeit in TXT zu konvertieren.

  1. Eingabe PDF Dokument laden
  2. Initialisieren Sie eine Instanz der StringBuilder Klasse
  3. Durchlaufen Sie jede Seite des PDF Dokuments
  4. Lesen Sie Text im Modus TextDevice und Raw.
  5. Ausgabetext als TXT Datei speichern

Das folgende code snippet zeigt, wie Sie eine PDF Datei in eine TXT Datei mit C# oder VB in .NET Framework konvertieren:

// Dokument öffnen
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// Zeichenfolge zum Speichern von extrahiertem Text
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // Textgerät erstellen
        TextDevice textDevice = new TextDevice();

        // Legen Sie verschiedene Optionen fest
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Raw);
        textDevice.ExtractionOptions = options;

        // Konvertieren Sie die Seite und speichern Sie den Text im Stream
        textDevice.Process(pdfPage, textStream);

        // Speicherstrom schließen
        textStream.Close();

        // Holen Sie sich Text aus dem Speicherstrom
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Raw.txt";
// Speichern Sie die Textdatei
File.WriteAllText(dataDir, builder.ToString());

Konvertieren Sie PDF in TXT Datei mit Formatierungsroutinen mit C# oder VB.NET

Betrachten wir nun den Anwendungsfall, bei dem Sie das PDF mit ein wenig Formatierungsroutine in Text konvertieren müssen. Beispielsweise Absatzeinzüge, Tabulatoren, Stile oder spaltenweise Formatierung. Sie können den Textinhalt eines PDF Dokuments ganz einfach mit C# in eine TXT Datei rendern, indem Sie die folgenden Schritte ausführen:

  1. Quell-PDF Datei laden
  2. Initiieren Sie eine String-Variable
  3. Lesen Sie jede Seite mit TextFormattingMode.Pure durch
  4. Konvertierte TXT Datei speichern

Das folgende code snippet zeigt, wie Sie eine PDF Datei in eine TXT Datei mit Formatierung in C# oder VB.NET-Sprache konvertieren:

// Dokument öffnen
Document pdfDocument = new Document(dataDir + "MultiColumnPdf.pdf");
StringBuilder builder = new StringBuilder();
// Zeichenfolge zum Speichern von extrahiertem Text
string extractedText = "";

foreach (Page pdfPage in pdfDocument.Pages)
{
    using (MemoryStream textStream = new MemoryStream())
    {
        // Textgerät erstellen
        TextDevice textDevice = new TextDevice();

        // Legen Sie verschiedene Optionen fest
        TextExtractionOptions options = new
        TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure);
        textDevice.ExtractionOptions = options;

        // Konvertieren Sie die Seite und speichern Sie den Text im Stream
        textDevice.Process(pdfPage, textStream);

        // Speicherstrom schließen
        textStream.Close();

        // Holen Sie sich Text aus dem Speicherstrom
        extractedText = Encoding.Unicode.GetString(textStream.ToArray());
    }
    builder.Append(extractedText);
}

dataDir = dataDir + "PDF_to_TXT_Pure.txt";
// Speichern Sie die Textdatei
File.WriteAllText(dataDir, builder.ToString());

Visueller Vergleich der PURE und RAW-Textkonvertierung

Der folgende Screenshot ist ein visueller Vergleich der beiden Ansätze, die wir gerade besprochen haben. Sie können feststellen, dass der reine Modus (Fenster ganz rechts) den Text mit denselben Formatierungen wie in der PDF Datei (Fenster ganz links) anzeigt.

Konvertieren Sie PDF TXT in Csharp

Dieser Screenshot von Eingabe und Ausgabedateien lässt Sie entscheiden, welcher Konvertierungsansatz für Sie am besten geeignet ist.

Konvertieren Sie TXT Dateien programmgesteuert mit C# oder VB.NET in PDF

TXT Dateien enthalten oft riesige Textinhalte. Mit Aspose.PDF for .NET API können Sie eine TXT Datei ganz einfach in eine PDF Datei konvertieren. Befolgen Sie einfach die folgenden Schritte, um eine Text-in-PDF Konvertierung durchzuführen:

  1. Erstellen Sie eine Instanz der Klasse TextReader.
  2. Initialisieren Sie ein PDF Dokument und fügen Sie eine leere Seite hinzu
  3. Instanziiere das Objekt TextBuilder.
  4. Lesen Sie jede Textzeile aus der TXT-Eingabedatei
  5. Ausgabe-PDF Datei speichern

Das folgende code snippet erläutert, wie eine TXT Datei, die Text enthält, programmgesteuert in ein PDF Dokument mithilfe der Sprache C# oder VB.NET konvertiert wird:

// Lesen Sie die TXT-Eingabedatei
System.IO.TextReader tr = new StreamReader(dataDir + "Test.txt", Encoding.UTF8, true);

// Neues Dokument initialisieren
Document doc = new Document();

// Leere Seite hinzufügen
Page page = doc.Pages.Add();
String strLine;

// Initiieren Sie das TextBuilder objekt
TextBuilder builder = new TextBuilder(page);
double x = 100; double y = 100;
while ((strLine = tr.ReadLine()) != null)
{
 TextFragment text = new TextFragment(strLine);
 text.Position = new Position(x, y);
 if (y >= page.PageInfo.Height - 72)
 {
  y = 100;
  page = doc.Pages.Add();
  builder = new TextBuilder(page);
 }
 else
 {
  y += 15;
 }
 builder.AppendText(text);
}

// Ausgabe-PDF Datei speichern
doc.Save(dataDir + "TexttoPDF.pdf");
tr.Close();

Fazit

In diesem Artikel haben wir die Konvertierung des Textes in einer PDF Datei in das TXT Dateiformat gelernt und untersucht. Außerdem haben wir den Text in einer TXT Datei mit C# oder VB in .NET Framework in ein PDF Dokument konvertiert. Sie können PDF und TXT Dateien sehr effizient und schnell konvertieren. Wenn Sie jedoch Bedenken oder Fragen haben, schreiben Sie uns bitte unter Free Support Forum zurück oder lesen Sie die Produktdokumentation. Wir würden uns freuen, von Ihnen zu hören!

Siehe auch