V různých scénářích je text extrahován z dokumentů pro další zpracování, jako je analýza textu, klasifikace atd. Kromě jiných dokumentů, jako jsou PDF a Word, se při extrakci textu používají také soubory PowerPoint. Proto si tento článek klade za cíl ukázat vám, jak extrahovat text z PowerPoint PPT v Pythonu. Probereme, jak extrahovat text z konkrétního snímku nebo celé prezentace.
Knihovna Pythonu pro extrahování textu z PowerPoint PPT
K extrahování textu z PowerPoint PPT použijeme Aspose.Slides pro Python přes .NET. Jedná se o knihovnu Pythonu s mnoha funkcemi pro vytváření a aktualizaci prezentací v PowerPointu. Kromě toho vám umožňuje bezproblémově manipulovat a převádět prezentace. Tuto knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.
> pip install aspose.slides
Extrahujte text z PowerPoint PPT v Pythonu
V závislosti na scénáři možná budete muset extrahovat text buď z celé prezentace PowerPoint, nebo z některých konkrétních snímků. V následujících částech si ukážeme, jak provést extrakci textu v obou výše zmíněných případech. Tak pojďme dál.
Python: Extrahujte text z konkrétního snímku PPT
Následují kroky k extrahování textu z konkrétního snímku v PPT v Pythonu.
Nejprve použijte metodu PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) k získání všech typů textu v prezentaci.
Poté použijte index k extrahování textu konkrétního snímku z pole slidestext.
Následující typy textu můžete extrahovat:
Text snímku
Poznámky
Text rozložení snímku
Předlohový text snímku
Následující ukázka kódu ukazuje, jak extrahovat text z konkrétního snímku PPT v Pythonu.
import aspose.slides as slides
# Získejte veškerý text z prezentace
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Vytiskněte text požadovaného snímku pomocí jeho indexu
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Extrakce textu v Pythonu z celého PowerPoint PPT
Následující kroky ukazují, jak extrahovat text ze všech snímků prezentace PowerPoint.
- Nejprve použijte metodu PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) k získání všech typů textu v prezentaci.
- Načíst prezentaci do objektu Presentation.
- Procházejte počet snímků v prezentaci.
- Extrahujte text z každého snímku pomocí pole slidestext.
Následující ukázka kódu ukazuje, jak extrahovat text ze souboru PPTX (nebo PPT) v Pythonu.
import aspose.slides as slides
# Získejte veškerý text z prezentace
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Načtěte prezentaci, abyste získali počet snímků
with slides.Presentation("presentation.pptx") as ppt:
# Procházejte snímky v prezentaci
for index in range(ppt.slides.length):
# Tisk textu požadovaných částí, jako je text snímku, text rozložení, poznámky atd.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Python PPT Text Extraction Library – Získejte bezplatnou licenci
Aspose.Slides pro Python můžete používat bez omezení hodnocení získáním dočasné licence.
Závěr
V tomto článku jste se naučili, jak extrahovat text z PowerPoint PPT v Pythonu. Viděli jste, jak extrahovat text z konkrétního snímku nebo ze všech snímků v prezentaci PowerPoint. Kromě toho můžete prozkoumat další funkce Aspose.Slides pro Python pomocí dokumentace. Své dotazy s námi můžete sdílet také prostřednictvím našeho fóra.