Extrahera text från PowerPoint-filer i Python

I olika scenarier extraheras texten från dokumenten för vidare bearbetning såsom vid textanalys, klassificering etc. Bland annat dokument som PDF och Word används även PowerPoint-filer i textextraktion. Därför syftar den här artikeln till att visa dig hur du extraherar text från PowerPoint PPT i Python. Vi kommer att ta upp hur man extraherar text från en specifik bild eller hela presentationen.

Python-bibliotek för att extrahera text från PowerPoint PPT

För att extrahera text från PowerPoint PPT kommer vi att använda Aspose.Slides for Python via .NET. Det är ett funktionsrikt Python-bibliotek för att skapa och uppdatera PowerPoint-presentationer. Dessutom låter det dig manipulera och konvertera presentationerna sömlöst. Du kan installera det här biblioteket från PyPI med följande pip-kommando.

> pip install aspose.slides 

Extrahera text från PowerPoint PPT i Python

Beroende på scenariot kan du behöva extrahera text antingen från hela PowerPoint-presentationen eller någon specifik bild(er). I de följande avsnitten kommer vi att visa hur man utför textextraktion i båda de ovan nämnda fallen. Så låt oss fortsätta.

Python: Extrahera text från en specifik PPT-bild

Följande är stegen för att extrahera text från en specifik bild i PPT i Python.

Följande kodexempel visar hur man extraherar text från en specifik PPT-bild i Python.

import aspose.slides as slides

# Få all text från presentationen
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Skriv ut texten för den önskade bilden med hjälp av dess index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Python-textextraktion från hela PowerPoint PPT

Följande steg visar hur man extraherar text från alla bilder i en PowerPoint-presentation.

Följande kodexempel visar hur man extraherar text från en PPTX (eller PPT) fil i Python.

import aspose.slides as slides

# Få all text från presentationen
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Ladda presentationen för att få bildräkning
with slides.Presentation("presentation.pptx") as ppt:

    # Gå igenom bilderna i presentationen
   for index in range(ppt.slides.length):

        # Skriv ut text av önskade avsnitt som bildtext, layouttext, anteckningar etc.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Python PPT Text Extraction Library - Skaffa en gratis licens

Du kan använda Aspose.Slides för Python utan utvärderingsbegränsningar genom att skaffa en tillfällig licens.

Slutsats

I den här artikeln har du lärt dig hur du extraherar text från PowerPoint PPT i Python. Du har sett hur man extraherar text från en specifik bild eller alla bilder i en PowerPoint-presentation. Dessutom kan du utforska andra funktioner i Aspose.Slides för Python med hjälp av dokumentationen. Du kan också dela dina frågor med oss via vårt forum.

Se även