Estrai testo da file PowerPoint in Python

In vari scenari, il testo viene estratto dai documenti per ulteriori elaborazioni, ad esempio nell’analisi del testo, nella classificazione, ecc. Tra gli altri documenti come PDF e Word, nell’estrazione del testo vengono utilizzati anche i file PowerPoint. Pertanto, questo articolo mira a mostrarti come estrarre testo da file PowerPoint in Python. Tratteremo come estrarre il testo da una diapositiva specifica o dall’intera presentazione.

Libreria Python per estrarre testo da file PowerPoint

Per estrarre il testo dai file PowerPoint, useremo Aspose.Slides for Python via .NET. È una libreria Python ricca di funzionalità per creare e aggiornare presentazioni PowerPoint. Inoltre, ti consente di manipolare e convertire le presentazioni senza problemi. Puoi installare questa libreria da PyPI usando il seguente comando pip.

> pip install aspose.slides 

Estrai testo da file PowerPoint in Python

A seconda dello scenario, potrebbe essere necessario estrarre il testo dall’intera presentazione di PowerPoint o da alcune diapositive specifiche. Nelle sezioni seguenti dimostreremo come eseguire l’estrazione del testo in entrambi i casi sopra menzionati. Quindi procediamo.

Estrai testo da una diapositiva specifica

Di seguito sono riportati i passaggi per estrarre il testo da una diapositiva specifica in PPT in Python.

  • Innanzitutto, usa il metodo PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) per ottenere tutti i tipi di testo nella presentazione.

  • Successivamente, usa index per estrarre il testo di una diapositiva specifica dall’array slidestext.

  • Di seguito sono riportati i tipi di testo che puoi estrarre:

    • Il testo della diapositiva

    • Appunti

    • Testo layout diapositiva

    • Diapositiva testo master

L’esempio di codice seguente mostra come estrarre il testo da una diapositiva PPT specifica in Python.

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Estrazione di testo dall’intero file PowerPoint in Python

I passaggi seguenti illustrano come estrarre il testo da tutte le diapositive di una presentazione di PowerPoint.

L’esempio di codice seguente mostra come estrarre il testo da un file PPTX (o PPT) in Python.

import aspose.slides as slides

# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:

    # Loop through slides in the presentation
    for index in range(ppt.slides.length):

        # Print text of desired sections such as slide's text, layout text, notes, etc.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Ottieni una licenza gratuita

Puoi utilizzare Aspose.Slides per Python tramite .NET senza limitazioni di valutazione ottenendo una licenza temporanea.

Conclusione

In questo articolo, hai imparato come estrarre il testo dai file PowerPoint in Python. Hai visto come estrarre il testo da una diapositiva specifica o da tutte le diapositive in una presentazione PowerPoint. Inoltre, puoi esplorare altre funzionalità di Aspose.Slides per Python usando la documentazione. Inoltre, puoi condividere le tue domande con noi tramite il nostro forum.

Guarda anche