In verschiedenen Szenarien wird der Text aus den Dokumenten zur weiteren Verarbeitung extrahiert, z. B. bei der Textanalyse, Klassifizierung usw. Bei der Textextraktion werden neben anderen Dokumenten wie PDF und Word auch PowerPoint-Dateien verwendet. Daher soll dieser Artikel Ihnen zeigen, wie Sie Text aus PowerPoint-Dateien in Python extrahieren. Wir werden behandeln, wie Sie Text aus einer bestimmten Folie oder der gesamten Präsentation extrahieren.
- Python-Bibliothek zum Extrahieren von Text aus PowerPoint-Dateien
- Text aus PowerPoint-Dateien extrahieren
Python-Bibliothek zum Extrahieren von Text aus PowerPoint-Dateien
Um Text aus PowerPoint-Dateien zu extrahieren, verwenden wir Aspose.Slides for Python via .NET. Es ist eine funktionsreiche Python-Bibliothek zum Erstellen und Aktualisieren von PowerPoint-Präsentationen. Darüber hinaus können Sie die Präsentationen nahtlos bearbeiten und konvertieren. Sie können diese Bibliothek von PyPI mit dem folgenden Pip-Befehl installieren.
> pip install aspose.slides
Extrahieren Sie Text aus PowerPoint-Dateien in Python
Je nach Szenario müssen Sie möglicherweise Text entweder aus der gesamten PowerPoint-Präsentation oder aus bestimmten Folien extrahieren. In den folgenden Abschnitten zeigen wir Ihnen, wie Sie in beiden oben genannten Fällen eine Textextraktion durchführen. Also lass uns fortfahren.
Extrahieren Sie Text aus einer bestimmten Folie
Im Folgenden sind die Schritte zum Extrahieren von Text aus einer bestimmten Folie in PPT in Python aufgeführt.
Verwenden Sie zunächst die Methode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), um alle Texttypen in der Präsentation abzurufen.
Verwenden Sie danach den Index, um den Text einer bestimmten Folie aus dem Slidestext-Array zu extrahieren.
Die folgenden Texttypen können Sie extrahieren:
Folientext
Anmerkungen
Folienlayouttext
Folienmastertext
Das folgende Codebeispiel zeigt, wie Text aus einer bestimmten PPT-Folie in Python extrahiert wird.
import aspose.slides as slides
# Holen Sie sich den gesamten Text aus der Präsentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Drucken Sie den Text der gewünschten Folie anhand ihres Index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Textextraktion aus der gesamten PowerPoint-Datei in Python
Die folgenden Schritte zeigen, wie Sie Text aus allen Folien einer PowerPoint-Präsentation extrahieren.
- Verwenden Sie zunächst die Methode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), um alle Texttypen in der Präsentation abzurufen.
- Präsentation in ein Präsentation-Objekt laden.
- Durchlaufen Sie die Anzahl der Folien in der Präsentation.
- Extrahieren Sie Text aus jeder Folie mit dem slidestext-Array.
Das folgende Codebeispiel zeigt, wie Text aus einer PPTX- (oder PPT-) Datei in Python extrahiert wird.
import aspose.slides as slides
# Holen Sie sich den gesamten Text aus der Präsentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Laden Sie die Präsentation, um die Anzahl der Folien zu erhalten
with slides.Presentation("presentation.pptx") as ppt:
# Durchlaufen Sie die Folien in der Präsentation
for index in range(ppt.slides.length):
# Drucken Sie den Text der gewünschten Abschnitte wie Folientext, Layouttext, Notizen usw.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Holen Sie sich eine kostenlose Lizenz
Sie können Aspose.Slides für Python über .NET ohne Evaluierungseinschränkungen verwenden, indem Sie eine temporäre Lizenz erwerben.
Fazit
In diesem Artikel haben Sie gelernt, wie Sie Text aus PowerPoint-Dateien in Python extrahieren. Sie haben gesehen, wie Sie Text aus einer bestimmten Folie oder allen Folien einer PowerPoint-Präsentation extrahieren. Außerdem können Sie andere Funktionen von Aspose.Slides für Python mithilfe der Dokumentation erkunden. Außerdem können Sie uns Ihre Fragen über unser Forum mitteilen.