W różnych scenariuszach tekst jest wyodrębniany z dokumentów w celu dalszego przetwarzania, takiego jak analiza tekstu, klasyfikacja itp. Wśród innych dokumentów, takich jak PDF i Word, pliki PowerPoint są również wykorzystywane do wyodrębniania tekstu. Dlatego ten artykuł ma na celu pokazanie, jak wyodrębnić tekst z PowerPoint PPT w Python. Omówimy, jak wyodrębnić tekst z określonego slajdu lub całej prezentacji.
- Biblioteka Python do wyodrębniania tekstu z programu PowerPoint PPT
- Wyodrębnij tekst z programu PowerPoint PPT
Biblioteka Python do wyodrębniania tekstu z programu PowerPoint PPT
Aby wyodrębnić tekst z PowerPoint PPT, użyjemy Aspose.Slides for Python przez .NET. Jest to bogata w funkcje biblioteka Python do tworzenia i aktualizowania prezentacji PowerPoint. Ponadto umożliwia bezproblemowe manipulowanie i konwertowanie prezentacji. Możesz zainstalować tę bibliotekę z PyPI za pomocą następującego polecenia pip.
> pip install aspose.slides
Wyodrębnij tekst z PowerPoint PPT w Python
W zależności od scenariusza może być konieczne wyodrębnienie tekstu z całej prezentacji programu PowerPoint lub z określonych slajdów. W poniższych sekcjach pokażemy, jak przeprowadzić ekstrakcję tekstu w obu wyżej wymienionych przypadkach. Więc kontynuujmy.
Python: wyodrębnij tekst z określonego slajdu PPT
Poniżej przedstawiono kroki, aby wyodrębnić tekst z określonego slajdu w PPT w Python.
Najpierw użyj metody PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), aby uzyskać wszystkie typy tekstu w prezentacji.
Następnie użyj indeksu, aby wyodrębnić tekst określonego slajdu z tablicy slidestext.
Poniżej przedstawiono rodzaje tekstu, które można wyodrębnić:
Tekst slajdu
Notatki
Tekst układu slajdów
Tekst wzorca slajdów
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z określonego slajdu PPT w języku Python.
import aspose.slides as slides
# Pobierz cały tekst z prezentacji
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Wydrukuj tekst żądanego slajdu, korzystając z jego indeksu
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Ekstrakcja tekstu z całego PowerPoint PPT w Python
Poniższe kroki pokazują, jak wyodrębnić tekst ze wszystkich slajdów prezentacji programu PowerPoint.
- Najpierw użyj metody PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), aby uzyskać wszystkie typy tekstu w prezentacji.
- Załaduj prezentację w obiekcie Prezentacja.
- Przejrzyj liczbę slajdów w prezentacji.
- Wyodrębnij tekst z każdego slajdu za pomocą tablicy slidestext.
Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z pliku PPTX (lub PPT) w języku Python.
import aspose.slides as slides
# Pobierz cały tekst z prezentacji
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Załaduj prezentację, aby uzyskać liczbę slajdów
with slides.Presentation("presentation.pptx") as ppt:
# Przeglądaj slajdy w prezentacji
for index in range(ppt.slides.length):
# Drukuj tekst żądanych sekcji, takich jak tekst slajdu, tekst układu, notatki itp.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Biblioteka wyodrębniania tekstu PPT w języku Python — uzyskaj bezpłatną licencję
Możesz używać Aspose.Slides for Python bez ograniczeń ewaluacyjnych, uzyskując licencję tymczasową.
Wniosek
W tym artykule nauczyłeś się, jak wyodrębnić tekst z PowerPoint PPT w Python. Widziałeś, jak wyodrębnić tekst z określonego slajdu lub wszystkich slajdów w prezentacji PowerPoint. Poza tym możesz poznać inne funkcje Aspose.Slides for Python, korzystając z dokumentacji. Możesz także podzielić się z nami swoimi pytaniami za pośrednictwem naszego forum.