Wyodrębnij tekst z plików PowerPoint w Python

W różnych scenariuszach tekst jest wyodrębniany z dokumentów w celu dalszego przetwarzania, takiego jak analiza tekstu, klasyfikacja itp. Wśród innych dokumentów, takich jak PDF i Word, pliki PowerPoint są również wykorzystywane do wyodrębniania tekstu. Dlatego ten artykuł ma na celu pokazanie, jak wyodrębnić tekst z PowerPoint PPT w Python. Omówimy, jak wyodrębnić tekst z określonego slajdu lub całej prezentacji.

Biblioteka Python do wyodrębniania tekstu z programu PowerPoint PPT

Aby wyodrębnić tekst z PowerPoint PPT, użyjemy Aspose.Slides for Python przez .NET. Jest to bogata w funkcje biblioteka Python do tworzenia i aktualizowania prezentacji PowerPoint. Ponadto umożliwia bezproblemowe manipulowanie i konwertowanie prezentacji. Możesz zainstalować tę bibliotekę z PyPI za pomocą następującego polecenia pip.

> pip install aspose.slides 

Wyodrębnij tekst z PowerPoint PPT w Python

W zależności od scenariusza może być konieczne wyodrębnienie tekstu z całej prezentacji programu PowerPoint lub z określonych slajdów. W poniższych sekcjach pokażemy, jak przeprowadzić ekstrakcję tekstu w obu wyżej wymienionych przypadkach. Więc kontynuujmy.

Python: wyodrębnij tekst z określonego slajdu PPT

Poniżej przedstawiono kroki, aby wyodrębnić tekst z określonego slajdu w PPT w Python.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z określonego slajdu PPT w języku Python.

import aspose.slides as slides

# Pobierz cały tekst z prezentacji
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Wydrukuj tekst żądanego slajdu, korzystając z jego indeksu
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Ekstrakcja tekstu z całego PowerPoint PPT w Python

Poniższe kroki pokazują, jak wyodrębnić tekst ze wszystkich slajdów prezentacji programu PowerPoint.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z pliku PPTX (lub PPT) w języku Python.

import aspose.slides as slides

# Pobierz cały tekst z prezentacji
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Załaduj prezentację, aby uzyskać liczbę slajdów
with slides.Presentation("presentation.pptx") as ppt:

    # Przeglądaj slajdy w prezentacji
   for index in range(ppt.slides.length):

        # Drukuj tekst żądanych sekcji, takich jak tekst slajdu, tekst układu, notatki itp.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Biblioteka wyodrębniania tekstu PPT w języku Python — uzyskaj bezpłatną licencję

Możesz używać Aspose.Slides for Python bez ograniczeń ewaluacyjnych, uzyskując licencję tymczasową.

Wniosek

W tym artykule nauczyłeś się, jak wyodrębnić tekst z PowerPoint PPT w Python. Widziałeś, jak wyodrębnić tekst z określonego slajdu lub wszystkich slajdów w prezentacji PowerPoint. Poza tym możesz poznać inne funkcje Aspose.Slides for Python, korzystając z dokumentacji. Możesz także podzielić się z nami swoimi pytaniami za pośrednictwem naszego forum.

Zobacz też