gescanntes pdf zu text gescharft

Eine gescannte PDF-Datei besteht im Grunde aus einem oder mehreren flachen Bildern, die von einem Scanner oder einer Kamera erfasst wurden. Sie können Informationen aus solchen Dateien nicht kopieren, einfügen oder verarbeiten. In diesem Artikel wird beschrieben, wie Sie eine gescannte PDF-Datei in C# in Text konvertieren.

Konvertierung von gescannten PDFs in Text – Installation der C# API

Aspose.OCR for .NET API wird verwendet, um OCR-Operationen durchzuführen. Es kann die Zeichen optisch von Bildern oder gescannten PDF Dokumenten erkennen. Bitte konfigurieren Sie die API, indem Sie die DLL-Datei aus dem Abschnitt New Releases herunterladen oder den folgenden NuGet-Installationsbefehl verwenden.

PM> Install-Package Aspose.OCR

Konvertieren Sie gescanntes PDF in eine Textzeichenfolge in C#

Sie können eine gescannte PDF-Datei in eine Textzeichenfolge konvertieren, indem Sie OCR-Vorgänge an ihr durchführen. Sie müssen die folgenden Schritte ausführen, um den Text aus einem gescannten PDF Dokument zu drucken:

  1. Legen Sie die Einstellung zum Erkennen der gescannten PDF-Datei fest.
  2. Initialisieren Sie die AsposeOcr Klasseninstanz.
  3. Initialisieren Sie das Klassenobjekt RecognitionResult.
  4. Drucken Sie den Text, nachdem Sie ihn aus einem gescannten PDF erkannt haben.

Das folgende Code-Snippet zeigt, wie Text aus gescannten PDFs in C# erkannt wird:

// AsposeOcr Klasseninstanz initialisieren
AsposeOcr api = new AsposeOcr();

// Legen Sie die Einstellung zum Erkennen der gescannten PDF-Datei fest
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Objekt der RecognitionResult Klasse initialisieren
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Drucken Sie Text, nachdem Sie ihn aus einer gescannten PDF-Datei erkannt haben
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Konvertieren Sie gescannte PDF Dateien programmgesteuert in C# in eine TXT-Datei

Sie können eine gescannte PDF-Datei mit den folgenden Schritten in eine TXT-Datei konvertieren:

  1. Instanziieren Sie das Klassenobjekt AsposeOcr.
  2. Erstellen Sie das Klassenobjekt DocumentRecognitionSettings.
  3. Erkennungsergebnisse speichern und StringBuilder Klasseninstanz initialisieren.
  4. Speichern Sie das Ergebnis in einer TXT-Datei.

Das folgende Code-Snippet erläutert, wie Sie eine gescannte PDF-Datei programmgesteuert in C# in eine TXT-Datei konvertieren:

// AsposeOcr Klasseninstanz initialisieren
AsposeOcr api = new AsposeOcr();

// Bilder aus PDF erkennen           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Erkennungsergebnisse speichern
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Initialisiert das StringBuilder Klassenobjekt
StringBuilder builder = new StringBuilder();

// Ergebnis in einer TXT-Datei speichern
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose Evaluierungslizenz anfordern, um die API in vollem Umfang zu testen.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF-Datei programmgesteuert mit C# in eine Textzeichenfolge oder eine Textdatei konvertieren. Darüber hinaus können Sie verschiedene andere Funktionen der API überprüfen, indem Sie Dokumentation besuchen. Bei Bedenken können Sie sich gerne unter forum an uns wenden.

Siehe auch