PDF-Dateien basieren manchmal auf Bildern, die normalerweise mit einem Scanner oder Bildverarbeitungsgerät erstellt werden. Sie können eine gescannte PDF-Datei mit OCR in eine durchsuchbare PDF-Datei konvertieren, sodass der Text im Dokument bearbeitet oder aktualisiert werden kann. In Übereinstimmung mit diesem Szenario wird in diesem Artikel erläutert, wie Sie eine gescannte PDF-Datei mithilfe von OCR-Vorgängen programmgesteuert mit C# in eine durchsuchbare PDF-Datei konvertieren.
- Gescanntes PDF in durchsuchbares PDF durch OCR – C#-API-Installation
- Konvertieren Sie gescannte PDF-Dateien programmgesteuert in C# in durchsuchbare PDF-Dateien
Gescanntes PDF in durchsuchbares PDF durch OCR – C#-API-Installation
Mit der API Aspose.OCR for .NET können Sie OCR-Vorgänge an einer gescannten PDF-Datei durchführen. Konfigurieren Sie einfach die API, indem Sie die DLL-Datei aus dem Abschnitt New Releases herunterladen oder den folgenden NuGet-Installationsbefehl verwenden:
PM> Install-Package Aspose.OCR
Konvertieren Sie gescannte PDF-Dateien programmgesteuert in durchsuchbare PDF-Dateien mit C#
Sie können eine gescannte PDF-Datei in ein durchsuchbares PDF-Dokument konvertieren, während Sie den Text optisch erkennen, indem Sie die folgenden Schritte ausführen:
- Initialisieren Sie die AsposeOcr-Klasseninstanz.
- Erkennen Sie Bilder aus PDF mit der Methode RecognizePdf.
- Legen Sie verschiedene Eigenschaften für die OCR-Erkennung mit der Klasse DocumentRecognitionSettings fest.
- Speichern Sie das OCR-Ergebnis als durchsuchbare PDF-Datei.
Das folgende Code-Snippet erläutert, wie Sie eine gescannte PDF-Datei programmgesteuert mit C# in ein durchsuchbares PDF-Dokument konvertieren:
// Gescannter mehrseitiger PDF-Pfad
string fullPath = "multi_page.pdf";
// AsposeOcr-Klassenobjekt initialisieren
AsposeOcr api = new AsposeOcr();
// Bilder aus PDF erkennen
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
StartPage = 0,
PagesNumber = 1
});
// Ergebnis als durchsuchbares PDF speichern
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);
Holen Sie sich eine kostenlose Evaluierungslizenz
Sie können die Funktion zum Erkennen von Text in gescannten PDFs mit OCR-Vorgängen ohne Einschränkungen testen, indem Sie eine kostenlose temporäre Lizenz anfordern.
Fazit
In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF-Datei in ein durchsuchbares PDF-Dokument konvertieren, indem Sie programmgesteuert OCR-Vorgänge darauf in C# ausführen. Darüber hinaus können Sie mehrere andere OCR-bezogene Funktionen überprüfen, die von der API angeboten werden, indem Sie die Dokumentation besuchen. Bei Fragen können Sie sich gerne im Forum an uns wenden.