OCR-PDF und Extrahieren von Text aus PDF in C#

Eine PDF-Datei ist eines der häufigsten Geschäftsdokumente. In bestimmten Fällen müssen wir möglicherweise gescannte PDF-Dokumente programmgesteuert lesen. Die Schwierigkeit, Text aus gescannten PDF-Dateien zu extrahieren, hat zur Entwicklung von Tools geführt, die das Lesen und Abrufen von Text aus solchen PDF-Dokumenten erleichtern. Je nach Inhalt Ihres Dokuments kann das Extrahieren von Text aus PDF-Dateien aus verschiedenen Gründen nützlich sein. In diesem Artikel lernen wir, wie man PDF-Dokumente mit OCR erkennt und Text aus PDF in C# extrahiert.

Folgende Themen werden in diesem Artikel behandelt:

  1. OCR-PDF-zu-Text-C#-API
  2. OCR-PDF und Text aus PDF extrahieren
  3. OCR für PDF durchführen und Text speichern
  4. OCR-PDF in Word-Datei
  5. OCR-PDF zu JSON

OCR-PDF-zu-Text-C#-API

Wir werden die API Aspose.OCR for .NET verwenden, um OCR für PDF-Dokumente durchzuführen. Es kann gescannte Bilder, Smartphone-Fotos, Screenshots und Bildbereiche erkennen. Die API gibt erkannte Textergebnisse in den gängigsten Dokument- und Datenaustauschformaten zurück. Neben der Konvertierung von Bildern in Text kann die API auch durchsuchbare PDFs basierend auf Scans erstellen. Darüber hinaus ist es in der Lage, Rechtschreibfehler in erkannten Texten automatisch zu korrigieren.

Die API stellt die Klasse AsposeOcr bereit, die verschiedene Methoden zum Ausführen von OCR-Vorgängen bereitstellt. Es bietet die Methode RecognizePdf(string, DocumentRecognitionSettings) zum Erkennen des Textes aus dem bereitgestellten PDF-Dokument. Die Klasse DocumentRecognitionSettings der API stellt Einstellungen für den PDF-Erkennungsprozess bereit. Die Klasse RecognitionResult repräsentiert die Ergebnisse der Bilderkennung.

Bitte laden Sie die DLL der API herunter oder installieren Sie sie mit NuGet.

PM> Install-Package Aspose.OCR

OCR PDF und Extrahieren von Text aus PDF in C#

Wir können OCR für PDF-Dokumente durchführen und den erkannten Text extrahieren, indem wir die folgenden Schritte ausführen:

  1. Erstellen Sie zunächst eine Instanz der AsposeOcr-Klasse.
  2. Initialisieren Sie als Nächstes ein Objekt der DocumentRecognitionSettings-Klasse.
  3. Geben Sie dann die Sprache an, die für OCR verwendet werden soll.
  4. Rufen Sie danach das RecognitionResult ab, indem Sie die Methode RecognizePdf() aufrufen. Als Argumente werden der Bildpfad und das DocumentRecognitionSettings-Objekt verwendet.
  5. Durchlaufen Sie abschließend die RecognitionResult-Liste und zeigen Sie den identifizierten Text an.

Der folgende Beispielcode zeigt, wie man PDF-Dokumente mit OCR erkennt und den erkannten Text in C# extrahiert.

// Dieses Codebeispiel zeigt, wie man PDF-Dokumente mit OCR erkennt und den erkannten Text extrahiert.
// Initialisieren Sie die PCR-Engine
AsposeOcr recognitionEngine = new AsposeOcr();

// Erkennungseinstellungen initialisieren
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Sprache für OCR angeben. Standardmäßig mehrsprachig
recognitionSettings.Language = Language.Eng;

// Text aus PDF erkennen
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Zeigt den erkannten Text an
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR-PDF und Extrahieren von Text aus PDF in C#

OCR PDF und Extrahieren von Text aus PDF in C#

OCR für PDF durchführen und Text in C# speichern

Wir können OCR für PDF-Dokumente durchführen und den erkannten Text speichern, indem wir die folgenden Schritte ausführen:

  1. Erstellen Sie zunächst eine Instanz der AsposeOcr-Klasse.
  2. Initialisieren Sie als Nächstes ein Objekt der DocumentRecognitionSettings-Klasse.
  3. Geben Sie dann die Sprache an, die für OCR verwendet werden soll.
  4. Rufen Sie danach die RecognizePdf()-Methode auf, um das RecognitionResult zu erhalten. Als Argumente werden der Bildpfad und das DocumentRecognitionSettings-Objekt verwendet.
  5. Speichern Sie abschließend den Text mit der Methode SaveMultipageDocument(). Als Argumente werden der Ausgabedateipfad, das SaveFormat- und das RecognitionResult-Objekt verwendet.

Der folgende Beispielcode zeigt, wie man PDF-Dokumente mit OCR erkennt und den erkannten Text in C# speichert.

// Dieses Codebeispiel zeigt, wie man PDF-Dokumente mit OCR erkennt und den erkannten Text extrahiert.
// Initialisieren Sie die PCR-Engine
AsposeOcr recognitionEngine = new AsposeOcr();

// Erkennungseinstellungen initialisieren
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Sprache für OCR angeben. Standardmäßig mehrsprachig
recognitionSettings.Language = Language.Eng;

// Text aus PDF erkennen
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Speichern Sie den erkannten Text
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR auf PDF durchführen und Text in C# speichern

OCR auf PDF durchführen und Text in C# speichern

OCR-PDF und Konvertieren von gescannten PDFs in Word in C#

Wir können OCR an gescannten PDF-Dokumenten durchführen und den erkannten Text im Word-Dokument speichern, indem wir die zuvor erwähnten Schritte ausführen. Allerdings müssen wir im letzten Schritt nur noch das SaveFormat.Docx angeben.

Der folgende Beispielcode zeigt, wie Sie PDF OCR erstellen und den erkannten Text als Word-Dokument in C# speichern.

// Dieses Codebeispiel zeigt, wie man PDF-Dokumente mit OCR erkennt und den erkannten Text als DOCX speichert.
// Initialisieren Sie die PCR-Engine
AsposeOcr recognitionEngine = new AsposeOcr();

// Erkennungseinstellungen initialisieren
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Sprache für OCR angeben. Standardmäßig mehrsprachig
recognitionSettings.Language = Language.Eng;

// Text aus PDF erkennen
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Speichern Sie den erkannten Text als DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR-PDF und Konvertieren von gescannten PDFs in Word in C#

OCR-PDF und Konvertieren von gescannten PDFs in Word in C#

OCR PDF und Konvertieren von PDF in JSON in C#

Wir können OCR für PDF-Dokumente durchführen und den erkannten Text in einer JSON-Datei speichern, indem wir die zuvor erwähnten Schritte ausführen. Allerdings müssen wir im letzten Schritt nur die SaveFormat.Json angeben.

Der folgende Beispielcode zeigt, wie Sie PDF OCR erstellen und den erkannten Text als JSON-Datei in C# speichern.

// Dieses Codebeispiel zeigt, wie Sie PDF-Dokumente mit OCR erkennen und den erkannten Text als JSON speichern.
// Initialisieren Sie die PCR-Engine
AsposeOcr recognitionEngine = new AsposeOcr();

// Erkennungseinstellungen initialisieren
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Sprache für OCR angeben. Standardmäßig mehrsprachig
recognitionSettings.Language = Language.Eng;

// Text aus PDF erkennen
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Speichern Sie den erkannten Text als JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz erhalten, um die Bibliothek ohne Evaluierungseinschränkungen zu testen.

Fazit

In diesem Artikel haben wir gelernt, wie man OCR für PDF-Dokumente durchführt und Text aus PDF in C# extrahiert. Wir haben auch gesehen, wie man den erkannten Text als TXT-, DOCX- und JSON-Datei speichert. Außerdem können Sie mehr über Aspose.OCR für die .NET-API erfahren, indem Sie die Dokumentation verwenden. Bei Unklarheiten können Sie sich gerne in unserem Forum an uns wenden.

Siehe auch