Extrair texto de arquivos do PowerPoint em Python

Em vários cenários, o texto é extraído dos documentos para posterior processamento, como na análise de texto, classificação, etc. Entre outros documentos, como PDF e Word, os arquivos do PowerPoint também são usados na extração de texto. Portanto, este artigo tem como objetivo mostrar como extrair texto de arquivos do PowerPoint em Python. Abordaremos como extrair texto de um slide específico ou de toda a apresentação.

Biblioteca Python para extrair texto de arquivos do PowerPoint

Para extrair texto de arquivos do PowerPoint, usaremos Aspose.Slides for Python via .NET. É uma biblioteca Python rica em recursos para criar e atualizar apresentações do PowerPoint. Além disso, permite manipular e converter as apresentações sem problemas. Você pode instalar esta biblioteca de PyPI usando o seguinte comando pip.

> pip install aspose.slides 

Extrair texto de arquivos do PowerPoint em Python

Dependendo do cenário, pode ser necessário extrair texto de toda a apresentação do PowerPoint ou de alguns slides específicos. Nas seções a seguir, demonstraremos como realizar a extração de texto em ambos os casos mencionados acima. Então vamos prosseguir.

Extrair texto de um slide específico

A seguir estão as etapas para extrair texto de um slide específico em PPT em Python.

O exemplo de código a seguir mostra como extrair texto de um slide PPT específico em Python.

import aspose.slides as slides

# Obtenha todo o texto da apresentação
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Imprima o texto do slide desejado usando seu índice
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Extração de texto de todo o arquivo do PowerPoint em Python

As etapas a seguir demonstram como extrair texto de todos os slides de uma apresentação do PowerPoint.

O exemplo de código a seguir mostra como extrair texto de um arquivo PPTX (ou PPT) em Python.

import aspose.slides as slides

# Obtenha todo o texto da apresentação
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Carregue a apresentação para obter a contagem de slides
with slides.Presentation("presentation.pptx") as ppt:

    # Percorrer os slides na apresentação
    for index in range(ppt.slides.length):

        # Imprima o texto das seções desejadas, como texto do slide, texto do layout, notas, etc.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Obtenha uma licença gratuita

Você pode usar o Aspose.Slides para Python via .NET sem limitações de avaliação obtendo uma licença temporária.

Conclusão

Neste artigo, você aprendeu como extrair texto de arquivos do PowerPoint em Python. Você viu como extrair texto de um slide específico ou de todos os slides de uma apresentação do PowerPoint. Além disso, você pode explorar outros recursos do Aspose.Slides for Python usando a documentação. Além disso, você pode compartilhar suas dúvidas conosco através do nosso fórum.

Veja também