Gescanntes PDF zu durchsuchbar mit OCR in C#

PDF-Dateien basieren manchmal auf Bildern, die normalerweise mit einem Scanner oder Bildverarbeitungsgerät erstellt werden. Sie können eine gescannte PDF-Datei mit OCR in eine durchsuchbare PDF-Datei konvertieren, sodass der Text im Dokument bearbeitet oder aktualisiert werden kann. In Übereinstimmung mit diesem Szenario wird in diesem Artikel erläutert, wie Sie eine gescannte PDF-Datei mithilfe von OCR-Vorgängen programmgesteuert mit C# in eine durchsuchbare PDF-Datei konvertieren.

Gescanntes PDF in durchsuchbares PDF durch OCR – C#-API-Installation

Mit der API Aspose.OCR for .NET können Sie OCR-Vorgänge an einer gescannten PDF-Datei durchführen. Konfigurieren Sie einfach die API, indem Sie die DLL-Datei aus dem Abschnitt New Releases herunterladen oder den folgenden NuGet-Installationsbefehl verwenden:

PM> Install-Package Aspose.OCR

Konvertieren Sie gescannte PDF-Dateien programmgesteuert in durchsuchbare PDF-Dateien mit C#

Sie können eine gescannte PDF-Datei in ein durchsuchbares PDF-Dokument konvertieren, während Sie den Text optisch erkennen, indem Sie die folgenden Schritte ausführen:

  1. Initialisieren Sie die AsposeOcr-Klasseninstanz.
  2. Erkennen Sie Bilder aus PDF mit der Methode RecognizePdf.
  3. Legen Sie verschiedene Eigenschaften für die OCR-Erkennung mit der Klasse DocumentRecognitionSettings fest.
  4. Speichern Sie das OCR-Ergebnis als durchsuchbare PDF-Datei.

Das folgende Code-Snippet erläutert, wie Sie eine gescannte PDF-Datei programmgesteuert mit C# in ein durchsuchbares PDF-Dokument konvertieren:

// Gescannter mehrseitiger PDF-Pfad
string fullPath = "multi_page.pdf";

// AsposeOcr-Klassenobjekt initialisieren
AsposeOcr api = new AsposeOcr();

// Bilder aus PDF erkennen           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Ergebnis als durchsuchbares PDF speichern
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können die Funktion zum Erkennen von Text in gescannten PDFs mit OCR-Vorgängen ohne Einschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF-Datei in ein durchsuchbares PDF-Dokument konvertieren, indem Sie programmgesteuert OCR-Vorgänge darauf in C# ausführen. Darüber hinaus können Sie mehrere andere OCR-bezogene Funktionen überprüfen, die von der API angeboten werden, indem Sie die Dokumentation besuchen. Bei Fragen können Sie sich gerne im Forum an uns wenden.

Siehe auch