Text aus PDF in Python extrahieren

Bei der Verarbeitung von PDF Dateien müssen Sie häufig Inhalte aus den Seiten als einfachen Text extrahieren. Dieser Klartext kann für verschiedene Zwecke weiterverwendet werden, z. B. Textanalyse, Textverarbeitung usw. In diesem Artikel erfahren Sie, wie Sie Text aus einem PDF in Python extrahieren. Anhand von Codebeispielen demonstriert der Artikel, wie man eine Textextraktion für ein ganzes PDF oder eine einzelne Seite durchführt.

Python Bibliothek zum Extrahieren von Text aus PDF

Um Text aus PDF Dateien zu extrahieren, verwenden wir Aspose.PDF for Python. Es ist eine leistungsstarke PDF-Manipulationsbibliothek, mit der Sie PDF Dateien erstellen und verarbeiten können. Darüber hinaus können Sie PDF Dateien in andere Formate konvertieren.

Sie können Aspose.PDF for Python mit dem folgenden Pip-Befehl installieren.

pip install aspose-pdf

Extrahieren Sie Text aus PDF in Python

Im Folgenden sind die Schritte zum Extrahieren von Text aus einer PDF-Datei in Python aufgeführt.

  • Verwenden Sie die Document Klasse, um die PDF-Datei zu laden.
  • Erstellen Sie eine Instanz der TextDevice Klasse.
  • Starten Sie eine Schleife für die Anzahl der Seiten mal.
  • Extrahieren Sie in jeder Iteration Text von einer Seite mit der Methode TextDevice.process() und speichern Sie den extrahierten Text in einer TXT-Datei.

Das folgende Codebeispiel zeigt, wie Text aus PDF in Python extrahiert wird.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# PDF Dokument öffnen
document = ap.Document("input.pdf")

# Textgerät erstellen
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Seite nach TXT exportieren
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extrahieren Sie Text von einer bestimmten Seite in PDF

Sie können auch Text aus einer bestimmten Seite der PDF-Datei extrahieren, indem Sie die Seitennummer im Array Document.pages verwenden. Das folgende Codebeispiel zeigt, wie Text aus einer bestimmten Seite in PDF extrahiert wird.

import aspose.pdf as ap

# PDF Dokument öffnen
document = ap.Document("input.pdf")

# Textgerät erstellen
textDevice = ap.devices.TextDevice()

# Extrahieren Sie Text von der ersten Seite
textDevice.process(document.pages[1], "extracted_text.txt")

Text aus PDF Online extrahieren

Sie können auch unser Online-PDF-Textextraktionstool verwenden, um Text aus PDF Dateien zu extrahieren. Es ist ein kostenloses Tool, das Sie ohne Abonnement oder Anmeldung verwenden können.

Kostenlose PDF-Textextraktionsbibliothek

Holen Sie sich Ihre kostenlose temporäre Lizenz und extrahieren Sie Text aus PDF Dateien ohne Einschränkungen.

Erkunden Sie die Python-PDF-Bibliothek

Weitere Informationen zur Python-PDF-Bibliothek finden Sie in der Dokumentation. Darüber hinaus können Sie Ihre Fragen in unserem Forum posten.

Abschluss

In diesem Artikel haben Sie gelernt, wie Sie Text aus PDF in Python extrahieren. Die Schritte und Codebeispiele haben gezeigt, wie Text aus einer ganzen PDF-Datei oder einer bestimmten Seite extrahiert wird. Sie können die Bibliothek einfach installieren und die Textextraktion aus Ihren Python-Anwendungen heraus durchführen.

Siehe auch