OCR-PDF und Extrahieren von Text aus PDF in Python

Die OCR-Technologie (Optical Character Recognition) spielt eine zentrale Rolle bei der Digitalisierung gedruckter, gescannter oder handgeschriebener Texte aus verschiedenen Quellen, einschließlich PDF Dokumenten. In diesem Blogbeitrag erfahren Sie, wie Sie PDF Dokumente mit OCR versehen und Text aus PDFs in Python extrahieren.

Dieser Artikel behandelt die folgenden Themen:

  1. PDF zu TXT Python OCR API
  2. OCR-PDF und Text aus PDF extrahieren
  3. Gescanntes PDF als Text speichern
  4. Kostenlose Lernressourcen

PDF zu TXT – Python OCR API

Wir werden Aspose.OCR for Python verwenden, um OCR für PDF Dokumente durchzuführen und Text aus PDFs zu extrahieren. Aspose.OCR for Python ist eine leistungsstarke OCR-API (Optical Character Recognition), die Text aus gescannten Bildern, Smartphone-Fotos, Screenshots und Bildbereichen erkennen kann. Die API gibt erkannte Textergebnisse in den gängigsten Dokument und Datenaustauschformaten zurück, einschließlich PDF, XML, JSON und Nur-Text.

Neben der Konvertierung von Bildern in Text kann Aspose.OCR for Python auch durchsuchbare PDFs basierend auf Scans erstellen. Die API kann auch Rechtschreibfehler in erkannten Texten automatisch korrigieren und ist somit ideal für eine Vielzahl von Anwendungen.

Bitte laden Sie das Paket herunter oder installieren Sie die API von PyPI mit dem folgenden Pip-Befehl in der Konsole:

pip install aspose-ocr-python-net

Python OCR PDF – Text aus PDF in Python extrahieren

Wir können OCR für PDF Dokumente durchführen und den erkannten Text extrahieren, indem wir die folgenden Schritte ausführen:

  1. Erstellen Sie eine Instanz der AsposeOcr Klasse.
  2. Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
  3. PDF-Datei zum Erkennungsstapel hinzufügen.
  4. Rufen Sie anschließend die Methode „recognize()“ auf.
  5. Zeigen Sie abschließend den identifizierten Text mithilfe der RecognitionResult Klasse an.

Der folgende Beispielcode zeigt, wie Sie PDF Dokumente mit OCR versehen und Text aus PDFs in Python extrahieren.

# Dieses Codebeispiel zeigt, wie man in Python Text aus einem gescannten PDF Dokument erkennt und extrahiert.
import aspose.ocr as ocr

# OCR-Engine initialisieren
api = ocr.AsposeOcr()

# RecognitionSettings initialisieren
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Datei zum Erkennungsstapel hinzufügen
files = ocr.OcrInput(ocr.InputType.PDF)

# Greifen Sie auf das gescannte PDF zu und legen Sie die Seitenzahl und die Gesamtzahl der Seiten fest
files.add("C:\\Files\\sample.pdf", 0, 1)

# Erkennen Sie den Text
result = api.recognize(files , settings)

# Erkennungsergebnis drucken
print(result[0].recognition_text)

Python OCR PDF – Speichern Sie gescannte PDFs in Text in Python

Wir können OCR für PDF Dokumente durchführen und den erkannten Text speichern, indem wir die folgenden Schritte ausführen:

  1. Erstellen Sie eine Instanz der AsposeOcr Klasse.
  2. Initialisieren Sie ein Objekt der DocumentRecognitionSettings Klasse.
  3. PDF-Datei zum Erkennungsstapel hinzufügen.
  4. Rufen Sie anschließend die Methode „recognize()“ auf.
  5. Speichern Sie abschließend den Text mit der Methode savemultipagedocument(). Als Argumente werden der Ausgabedateipfad, das SaveFormat und das RecognitionResult Objekt verwendet.

Der folgende Beispielcode zeigt, wie Sie PDF Dokumente mit OCR versehen und den erkannten Text in Python speichern.

# Dieses Codebeispiel zeigt, wie Sie den Erkennungs und Extrahierungstext mit Python speichern.
import aspose.ocr as ocr

# OCR-Engine initialisieren
api = ocr.AsposeOcr()

# RecognitionSettings initialisieren
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Datei zum Erkennungsstapel hinzufügen
files = ocr.OcrInput(ocr.InputType.PDF)

# Greifen Sie auf das gescannte PDF zu und legen Sie die Seitenzahl und die Gesamtzahl der Seiten fest
files.add("C:\\Files\\sample.pdf", 0, 1)

# Erkennen Sie den Text
result = api.recognize(files , settings)

# Erkennungsergebnis drucken
print(result[0].recognition_text)

# Speichern Sie den extrahierten Text
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz erwerben, um die Bibliothek ohne Evaluierungseinschränkungen auszuprobieren.

Python OCR PDF – Kostenlose Ressourcen

Sie können die folgenden Ressourcen weiter erkunden, um die Python-OCR-API kennenzulernen:

Abschluss

In diesem Artikel haben wir gelernt, wie man in Python OCR für PDF Dokumente durchführt und Text aus PDF extrahiert. Die Möglichkeit, Text aus PDFs mithilfe von OCR zu extrahieren, ist in zahlreichen Branchen von entscheidender Bedeutung, von der Archivierung und rechtlichen Dokumentation bis hin zur Datenanalyse und Inhaltsdigitalisierung. Durch die Nutzung von Aspose.OCR for Python können Entwickler und Enthusiasten OCR funktionen nahtlos in ihre Python-Projekte integrieren. Bei Unklarheiten können Sie uns gerne in unserem kostenlosen Support-Forum kontaktieren.

Siehe auch