Extrahieren Sie Text aus PowerPoint-Dateien in Python

In verschiedenen Szenarien wird der Text aus den Dokumenten zur weiteren Verarbeitung extrahiert, z. B. bei der Textanalyse, Klassifizierung usw. Bei der Textextraktion werden neben anderen Dokumenten wie PDF und Word auch PowerPoint-Dateien verwendet. Daher soll dieser Artikel Ihnen zeigen, wie Sie Text aus PowerPoint-Dateien in Python extrahieren. Wir werden behandeln, wie Sie Text aus einer bestimmten Folie oder der gesamten Präsentation extrahieren.

Python-Bibliothek zum Extrahieren von Text aus PowerPoint-Dateien

Um Text aus PowerPoint-Dateien zu extrahieren, verwenden wir Aspose.Slides for Python via .NET. Es ist eine funktionsreiche Python-Bibliothek zum Erstellen und Aktualisieren von PowerPoint-Präsentationen. Darüber hinaus können Sie die Präsentationen nahtlos bearbeiten und konvertieren. Sie können diese Bibliothek von PyPI mit dem folgenden Pip-Befehl installieren.

> pip install aspose.slides 

Extrahieren Sie Text aus PowerPoint-Dateien in Python

Je nach Szenario müssen Sie möglicherweise Text entweder aus der gesamten PowerPoint-Präsentation oder aus bestimmten Folien extrahieren. In den folgenden Abschnitten zeigen wir Ihnen, wie Sie in beiden oben genannten Fällen eine Textextraktion durchführen. Also lass uns fortfahren.

Extrahieren Sie Text aus einer bestimmten Folie

Im Folgenden sind die Schritte zum Extrahieren von Text aus einer bestimmten Folie in PPT in Python aufgeführt.

Das folgende Codebeispiel zeigt, wie Text aus einer bestimmten PPT-Folie in Python extrahiert wird.

import aspose.slides as slides

# Holen Sie sich den gesamten Text aus der Präsentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Drucken Sie den Text der gewünschten Folie anhand ihres Index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Textextraktion aus der gesamten PowerPoint-Datei in Python

Die folgenden Schritte zeigen, wie Sie Text aus allen Folien einer PowerPoint-Präsentation extrahieren.

Das folgende Codebeispiel zeigt, wie Text aus einer PPTX- (oder PPT-) Datei in Python extrahiert wird.

import aspose.slides as slides

# Holen Sie sich den gesamten Text aus der Präsentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Laden Sie die Präsentation, um die Anzahl der Folien zu erhalten
with slides.Presentation("presentation.pptx") as ppt:

    # Durchlaufen Sie die Folien in der Präsentation
    for index in range(ppt.slides.length):

        # Drucken Sie den Text der gewünschten Abschnitte wie Folientext, Layouttext, Notizen usw.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Holen Sie sich eine kostenlose Lizenz

Sie können Aspose.Slides für Python über .NET ohne Evaluierungseinschränkungen verwenden, indem Sie eine temporäre Lizenz erwerben.

Fazit

In diesem Artikel haben Sie gelernt, wie Sie Text aus PowerPoint-Dateien in Python extrahieren. Sie haben gesehen, wie Sie Text aus einer bestimmten Folie oder allen Folien einer PowerPoint-Präsentation extrahieren. Außerdem können Sie andere Funktionen von Aspose.Slides für Python mithilfe der Dokumentation erkunden. Außerdem können Sie uns Ihre Fragen über unser Forum mitteilen.

Siehe auch