OCR PDF Python

Die Arbeit mit gescannten PDF Dokumenten ist oft schwierig, da sie keinen durchsuchbaren oder bearbeitbaren Text enthalten. Mit der Leistungsfähigkeit der OCR-Technologie (Optical Character Recognition) wird jedoch das Extrahieren von Text aus gescannten PDFs und deren Konvertierung in durchsuchbare oder bearbeitbare Formate Realität. In diesem Blogbeitrag erfahren Sie, wie Sie eine PDF-Texterkennung mit OCR in Python durchführen. Wir werden auch untersuchen, wie man Text aus gescannten PDF Dateien extrahiert, sie in durchsuchbare oder bearbeitbare PDFs umwandelt und das Potenzial der OCR funktionen von Python mithilfe der Bibliothek Aspose.OCR for Python über .NET freisetzt.

Erkennen Sie Text aus gescannten PDFs mit OCR – Python API-Installation

Die optische Zeichenerkennung (OCR) ist eine Technologie, die die Umwandlung von Bildern oder gescannten Dokumenten in maschinenlesbaren Text ermöglicht. Durch die Analyse der Formen und Muster von Zeichen in einem Bild identifizieren und erkennen OCR-Algorithmen Text und ermöglichen so die Extraktion und Verarbeitung der darin enthaltenen Informationen. Bevor Sie beginnen, müssen Sie Aspose.OCR for Python über .NET installieren, indem Sie es von der Seite Neue Versionen herunterladen oder es von PyPi aus konfigurieren, indem Sie den folgenden Installationsbefehl ausführen:

pip install aspose-ocr-python-net

Erkennen Sie Text aus PDF mit OCR in Python

Mit OCR in Python können Sie Text aus PDF erkennen oder extrahieren. Der Text wird effizient aus einem gescannten PDF Dokument extrahiert, da die folgenden Schritte den einfachen Prozess zum Erkennen von Text aus PDF mit OCR in Python beschreiben:

  1. Instanziieren Sie ein Objekt der Klasse AsposeOcr.
  2. Laden Sie die gescannte PDF-Datei.
  3. Erkennen Sie Text mit OCR und drucken Sie die Ausgabe auf der Konsole.

Der folgende Beispielcode zeigt, wie man Text aus PDF mit OCR in Python erkennt:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Konvertieren Sie gescannte PDFs mit OCR in Python in durchsuchbare oder bearbeitbare PDFs

Gescannte PDF Dateien enthalten Bilder, in denen Sie nicht nach dem Text suchen können. Daher müssen Sie sie in ein durchsuchbares PDF Dokument konvertieren, um das Dokument maschinenlesbar zu machen und es entsprechend weiterzuverarbeiten. Bitte führen Sie die folgenden Schritte aus, um es in Python in ein durchsuchbares oder bearbeitbares PDF Dokument zu konvertieren:

  1. Erstellen Sie ein Objekt der Klasse AsposeOcr.
  2. Initialisieren Sie die Klasseninstanz [RecognitionSettings][5] und legen Sie die erforderlichen Eigenschaften fest.
  3. Laden Sie die PDF-Datei und legen Sie den Seitenbereich für die Erkennung mit OCR fest.
  4. Speichern Sie die ausgegebene durchsuchbare PDF-Datei.

Der folgende Beispielcode zeigt, wie man ein gescanntes PDF mit OCR in Python in ein durchsuchbares PDF Dokument konvertiert:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Bemerkenswert ist hier, dass Sie beliebige Seitenbereiche im PDF Dokument per OCR erfassen können. Beispielsweise wird Text nur von bestimmten Seiten erkannt, wenn der Seitenindex nullbasiert ist und der letzte Parameter die Anzahl der Seiten angibt, die mit der API verarbeitet werden sollen. Darüber hinaus können Sie verschiedene Erkennungseinstellungen für die Vorverarbeitung der Quelldatei festlegen, z. B. das Entfernen von Rauschen, das Einstellen des Kontrasts, das Überprüfen der Schräglage von Eingabeseiten usw., um die Texterkennung mit der OCR zu verbessern und präziser zu gestalten.

Holen Sie sich eine kostenlose Evaluierungslizenz

Sie können eine kostenlose temporäre Lizenz anfordern, um die API ohne Evaluierungsbeschränkungen zu testen.

Zusammenfassen

Mit der Leistungsfähigkeit der OCR-Technologie und Python ist das Extrahieren von Text aus gescannten PDFs und deren Konvertierung in durchsuchbare oder bearbeitbare Formate leicht zugänglich geworden. Hier haben wir den Prozess der PDF-Texterkennung mit OCR in Python untersucht. Wir besprachen den Installationsprozess und das Extrahieren von Text aus gescannten PDFs, die OCR-Implementierung und die Konvertierung gescannter PDFs in durchsuchbare oder bearbeitbare Formate. Durch die Nutzung von OCR funktionen und den Einsatz fortschrittlicher Techniken können Sie das volle Potenzial gescannter PDFs ausschöpfen und sie in Ihren Projekten zugänglicher und vielseitiger machen. Bei Unklarheiten oder Fragen wenden Sie sich bitte über das kostenlose Support-Forum an uns.

Siehe auch