Gescanntes PDF in Word OCR gestochen scharf

Gescannte PDF Dateien enthalten Bilder, bei denen Text nicht ausgewählt oder bearbeitet werden kann. In bestimmten Situationen müssen Sie möglicherweise gescannte PDF Dateien in Word Dokumente konvertieren. In diesem Artikel erfahren Sie, wie Sie gescannte PDF Dateien programmgesteuert mit C# in ein Word Dokument im DOCX oder DOC Format konvertieren:

Scanned PDF to Word DOCX Converter – C# API Installation

Sie können mit gescannten PDF Dateien arbeiten, indem Sie OCR-Vorgänge mit der Aspose.OCR for .NET-API ausführen und dann ein Word Dokument mit der Aspose.Words for .NET-API programmgesteuert mit C# erstellen. Sie können die APIs konfigurieren, indem Sie die DLL Dateien von New Releases herunterladen oder die folgenden NuGet Installationsbefehle verwenden:

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

Konvertieren Sie gescannte PDF Dateien programmgesteuert in Word Dokumente mit C#

Sie können gescannte PDF Dateien in Word Dokumente konvertieren, indem Sie den Text optisch erkennen. OCR-Operationen wandeln das gescannte PDF in Text um und dann wird das Word Dokument im DOC oder DOCX Format generiert. Bitte befolgen Sie die nachstehenden Schritte, um eine gescannte PDF Datei in ein Word Dokument zu konvertieren:

  1. Initialisieren Sie die AsposeOcr klasse instanz.
  2. Erkennen Sie Bilder aus PDF mit der Klasse DocumentRecognitionSettings.
  3. Initialisieren Sie das Klassenobjekt StringBuilder und speichern Sie den Text.
  4. Word Dokument mit der Klasse Document initialisieren.
  5. Geben Sie Schriftart und Absatzformatierung an.
  6. Speichern Sie das ausgegebene Word Dokument als DOCX oder DOC Datei.

Das folgende code snippet zeigt, wie Sie eine gescannte PDF Datei programmgesteuert mit C# in ein Word Dokument konvertieren:

// AsposeOcr klasse instanz initialisieren
AsposeOcr api = new AsposeOcr();

// Erkennen Sie Bilder aus PDF mit der DocumentRecognitionSettings Klasse    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Erkennung ergebnisse speichern
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// Initialisiert das StringBuilder Klassenobjekt
StringBuilder text = new StringBuilder();

// Ergebnis als Text speichern
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Initialisieren Sie das Word Dokument mit der Document Klasse.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Geben Sie die Schriftartformatierung an
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// Geben Sie die Absatzformatierung an
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// Speichern Sie das ausgegebene Word Dokument. 
doc.Save("Scanned_PDF_to_Word.docx");

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können die APIs in voller Kapazität testen, indem Sie eine kostenlose temporäre Lizenz anfordern.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie eine gescannte PDF Datei programmgesteuert mit C# in ein Word Dokument im DOCX oder DOC Format konvertieren. Darüber hinaus können Sie mehrere andere OCR-bezogene Funktionen erkunden, indem Sie die Dokumentation besuchen. Bei Fragen können Sie sich gerne über das Forum an uns wenden.

Siehe auch

Tipp: Wenn Sie jemals ein Word Dokument aus einer PowerPoint Präsentation erhalten müssen, können Sie den Konverter Aspose Presentation to Word Document verwenden.