gescanntes pdf zu text gescharft

Eine gescannte PDF Datei besteht im Grunde aus einem oder mehreren flachen Bildern, die von einem Scanner oder einer Kamera erfasst wurden. Sie können Informationen aus solchen Dateien nicht kopieren, einfügen oder verarbeiten. In diesem Artikel wird beschrieben, wie Sie eine gescannte PDF Datei in C# in Text konvertieren.

Scanned PDF to Text Converter – C# API Installation

Aspose.OCR for .NET API wird verwendet, um OCR-Operationen durchzuführen. Es kann die Zeichen optisch von Bildern oder gescannten PDF Dokumenten erkennen. Bitte konfigurieren Sie die API, indem Sie die DLL Datei aus dem Abschnitt New Releases herunterladen oder den folgenden NuGet Installationsbefehl verwenden.

PM> Install-Package Aspose.OCR

Konvertieren Sie gescanntes PDF in eine Textzeichenfolge in C#

Sie können eine gescannte PDF Datei in eine Textzeichenfolge konvertieren, indem Sie OCR-Vorgänge an ihr durchführen. Sie müssen die folgenden Schritte ausführen, um den Text aus einem gescannten PDF Dokument zu drucken:

  1. Legen Sie die Einstellung zum Erkennen der gescannten PDF Datei fest.
  2. Initialisieren Sie die AsposeOcr klasse instanz.
  3. Initialisieren Sie das Klassenobjekt RecognitionResult.
  4. Drucken Sie den Text, nachdem Sie ihn aus dem gescannten PDF erkannt haben.

Das folgende code snippet zeigt, wie Text aus gescannten PDFs in C# erkannt wird:

// AsposeOcr klasse instanz initialisieren
AsposeOcr api = new AsposeOcr();

// Legen Sie die Einstellung zum Erkennen der gescannten PDF Datei fest
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Objekt der RecognitionResult Klasse initialisieren
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Drucken Sie Text, nachdem Sie ihn aus einer gescannten PDF Datei erkannt haben
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Konvertieren Sie gescannte PDF Dateien programmgesteuert in C# in eine TXT Datei

Sie können eine gescannte PDF Datei mit den folgenden Schritten in eine TXT Datei konvertieren:

  1. Instanziieren Sie das Klassenobjekt AsposeOcr.
  2. Erstellen Sie das Klassenobjekt DocumentRecognitionSettings.
  3. Erkennung ergebnisse speichern und StringBuilder klasse instanz initialisieren.
  4. Speichern Sie das Ergebnis in einer TXT Datei.

Das folgende code snippet erläutert, wie Sie eine gescannte PDF Datei programmgesteuert in C# in eine TXT Datei konvertieren:

// AsposeOcr klasse instanz initialisieren
AsposeOcr api = new AsposeOcr();

// Bilder aus PDF erkennen           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Erkennung ergebnisse speichern
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Initialisiert das StringBuilder Klassenobjekt
StringBuilder builder = new StringBuilder();

// Ergebnis in einer TXT Datei speichern
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose Evaluierungslizenz anfordern, um die API in vollem Umfang zu testen.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie gescannte PDF Dateien programmgesteuert mit C# in eine Textzeichenfolge oder eine Textdatei konvertieren. Darüber hinaus können Sie mehrere andere Funktionen der API überprüfen, indem Sie die Dokumentation besuchen. Bitte zögern Sie nicht, uns im Forum zu kontaktieren, falls Sie Bedenken haben.

Siehe auch