PDF zu Word OCR Python

Das Konvertieren gescannter PDFs in Word Dokumente bietet mehrere Vorteile, wie z. B. die Bearbeitung des Texts im Dokument, wodurch Änderungen oder Aktualisierungen einfacher vorgenommen werden können. Es ermöglicht auch die Durchsuchbarkeit von Texten, was bei großen Dokumenten oder bei Recherchen von unschätzbarem Wert ist. Darüber hinaus können Sie während der OCR funktion in Python auch eine Rechtschreibprüfung durchführen, um Tippfehler oder falsch geschriebene Wörter zu korrigieren. Dementsprechend erklärt dieser Artikel, wie man gescannte PDF Dateien mit OCR in Python mithilfe der Bibliothek Aspose.OCR for Python über .NET in ein Word Dokument konvertiert.

PDF zu Word mit OCR – Python-API-Installation

Bevor wir uns mit der Texterkennung befassen, stellen wir sicher, dass die erforderliche Umgebung für die Ausführung von OCR in Python eingerichtet ist. Stellen Sie sicher, dass auf Ihrem System Python installiert ist, vorzugsweise Version 3.x oder höher, zusammen mit einem zuverlässigen Code-Editor oder einer integrierten Entwicklungsumgebung (IDE) wie Visual Studio Code oder IDLE usw. Anschließend müssen Sie Aspose.OCR für konfigurieren Python über .NET, während Sie über den Abschnitt Neue Veröffentlichungen oder über PyPi mit dem folgenden Installationsbefehl darauf zugreifen:

pip install aspose-ocr-python-net

Konvertieren Sie gescannte PDFs mit OCR in Python in Word

Sie können ein gescanntes PDF mit OCR in Word konvertieren, indem Sie die folgenden Schritte ausführen:

  1. Initialisieren Sie die API mit der Klasse AsposeOcr.
  2. Legen Sie verschiedene Einstellungen für die Erkennung fest.
  3. Erkennen Sie den Text mit OCR und speichern Sie die ausgegebene DOCX-Word-Datei.

Der folgende Codeausschnitt zeigt, wie man gescannte PDFs mit OCR in Python in Word konvertiert:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF in Word mit OCR und Rechtschreibprüfung in Python

OCR-Engines können manchmal zu Ungenauigkeiten führen, insbesondere bei komplexen Layouts, Handschriften oder Scans von geringer Qualität. In solchen Fällen spielt die Rechtschreibkorrektur eine entscheidende Rolle bei der Verbesserung der Genauigkeit des konvertierten Textes. In diesem Abschnitt geht es insbesondere um die PDF zu Word-Konvertierung mit OCR und die Rechtschreibprüfungsfunktion in Python. Um diese Anforderungen zu erfüllen, müssen Sie die folgenden Schritte ausführen:

  1. Initialisieren Sie eine Instanz der Klasse AsposeOcr.
  2. Legen Sie verschiedene Eigenschaften mithilfe der Klasse RecognitionSettings fest.
  3. Erkennen Sie die PDF-Datei mit OCR und prüfen Sie die Rechtschreibung der extrahierten Zeichenfolge.
  4. Exportieren Sie das ausgegebene Word Dokument im DOCX-Format.

Der folgende Beispielcode erklärt, wie Sie mit OCR in Python ein PDF in ein Word Dokument konvertieren:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz erwerben, um jegliche Testeinschränkungen und Wasserzeichen zu vermeiden.

Zusammenfassen

In diesem Blogbeitrag haben wir untersucht, wie Sie gescannte PDFs mithilfe von OCR in Python in Word Dokumente konvertieren. Wir haben die Bedeutung von OCR und seine Vorteile besprochen, eine Schritt-für-Schritt-Anleitung zum Einrichten der Umgebung, zum Extrahieren von Text aus dem PDF Dokument mit verschiedenen Ansätzen unter Angabe mehrerer Einstellungen und zum Speichern in einem Word Dokument bereitgestellt. Mit diesem Leitfaden können Sie die Konvertierung gescannter PDFs in bearbeitbare Word Dokumente mithilfe von Python und OCR automatisieren und so eine Welt voller Möglichkeiten für die Datenextraktion und -bearbeitung eröffnen. Falls Sie eines Ihrer Anliegen besprechen möchten, können Sie uns gerne im kostenlosen Support-Forum schreiben.

Siehe auch