Extrahujte text ze souborů PowerPoint v Pythonu

V různých scénářích je text extrahován z dokumentů pro další zpracování, jako je analýza textu, klasifikace atd. Kromě jiných dokumentů, jako jsou PDF a Word, se při extrakci textu používají také soubory PowerPoint. Proto si tento článek klade za cíl ukázat vám, jak extrahovat text z PowerPoint PPT v Pythonu. Probereme, jak extrahovat text z konkrétního snímku nebo celé prezentace.

Knihovna Pythonu pro extrahování textu z PowerPoint PPT

K extrahování textu z PowerPoint PPT použijeme Aspose.Slides pro Python přes .NET. Jedná se o knihovnu Pythonu s mnoha funkcemi pro vytváření a aktualizaci prezentací v PowerPointu. Kromě toho vám umožňuje bezproblémově manipulovat a převádět prezentace. Tuto knihovnu můžete nainstalovat z PyPI pomocí následujícího příkazu pip.

> pip install aspose.slides 

Extrahujte text z PowerPoint PPT v Pythonu

V závislosti na scénáři možná budete muset extrahovat text buď z celé prezentace PowerPoint, nebo z některých konkrétních snímků. V následujících částech si ukážeme, jak provést extrakci textu v obou výše zmíněných případech. Tak pojďme dál.

Python: Extrahujte text z konkrétního snímku PPT

Následují kroky k extrahování textu z konkrétního snímku v PPT v Pythonu.

Následující ukázka kódu ukazuje, jak extrahovat text z konkrétního snímku PPT v Pythonu.

import aspose.slides as slides

# Získejte veškerý text z prezentace
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Vytiskněte text požadovaného snímku pomocí jeho indexu
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Extrakce textu v Pythonu z celého PowerPoint PPT

Následující kroky ukazují, jak extrahovat text ze všech snímků prezentace PowerPoint.

Následující ukázka kódu ukazuje, jak extrahovat text ze souboru PPTX (nebo PPT) v Pythonu.

import aspose.slides as slides

# Získejte veškerý text z prezentace
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Načtěte prezentaci, abyste získali počet snímků
with slides.Presentation("presentation.pptx") as ppt:

    # Procházejte snímky v prezentaci
   for index in range(ppt.slides.length):

        # Tisk textu požadovaných částí, jako je text snímku, text rozložení, poznámky atd.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Python PPT Text Extraction Library – Získejte bezplatnou licenci

Aspose.Slides pro Python můžete používat bez omezení hodnocení získáním dočasné licence.

Závěr

V tomto článku jste se naučili, jak extrahovat text z PowerPoint PPT v Pythonu. Viděli jste, jak extrahovat text z konkrétního snímku nebo ze všech snímků v prezentaci PowerPoint. Kromě toho můžete prozkoumat další funkce Aspose.Slides pro Python pomocí dokumentace. Své dotazy s námi můžete sdílet také prostřednictvím našeho fóra.

Viz také