Em vários cenários, o texto é extraído dos documentos para posterior processamento, como na análise de texto, classificação, etc. Entre outros documentos, como PDF e Word, os arquivos do PowerPoint também são usados na extração de texto. Portanto, este artigo tem como objetivo mostrar como extrair texto de arquivos do PowerPoint em Python. Abordaremos como extrair texto de um slide específico ou de toda a apresentação.
- Biblioteca Python para extrair texto de arquivos do PowerPoint
- Extrair texto de arquivos do PowerPoint
Biblioteca Python para extrair texto de arquivos do PowerPoint
Para extrair texto de arquivos do PowerPoint, usaremos Aspose.Slides for Python via .NET. É uma biblioteca Python rica em recursos para criar e atualizar apresentações do PowerPoint. Além disso, permite manipular e converter as apresentações sem problemas. Você pode instalar esta biblioteca de PyPI usando o seguinte comando pip.
> pip install aspose.slides
Extrair texto de arquivos do PowerPoint em Python
Dependendo do cenário, pode ser necessário extrair texto de toda a apresentação do PowerPoint ou de alguns slides específicos. Nas seções a seguir, demonstraremos como realizar a extração de texto em ambos os casos mencionados acima. Então vamos prosseguir.
Extrair texto de um slide específico
A seguir estão as etapas para extrair texto de um slide específico em PPT em Python.
Primeiro, use o método PresentationFactory().getpresentationtext(string, TextExtractionArrangeMode) para obter todos os tipos de texto na apresentação.
Depois disso, use o índice para extrair o texto de um slide específico da matriz slidestext.
A seguir estão os tipos de texto que você pode extrair:
Texto do slide
Notas
Texto do layout do slide
Texto mestre de slides
O exemplo de código a seguir mostra como extrair texto de um slide PPT específico em Python.
import aspose.slides as slides
# Obtenha todo o texto da apresentação
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Imprima o texto do slide desejado usando seu índice
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Extração de texto de todo o arquivo do PowerPoint em Python
As etapas a seguir demonstram como extrair texto de todos os slides de uma apresentação do PowerPoint.
- Primeiro, use o método PresentationFactory().getpresentationtext(string, TextExtractionArrangeMode) para obter todos os tipos de texto na apresentação.
- Carregue a apresentação em um objeto Apresentação.
- Iterar através do número de slides na apresentação.
- Extraia o texto de cada slide usando a matriz slidestext.
O exemplo de código a seguir mostra como extrair texto de um arquivo PPTX (ou PPT) em Python.
import aspose.slides as slides
# Obtenha todo o texto da apresentação
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Carregue a apresentação para obter a contagem de slides
with slides.Presentation("presentation.pptx") as ppt:
# Percorrer os slides na apresentação
for index in range(ppt.slides.length):
# Imprima o texto das seções desejadas, como texto do slide, texto do layout, notas, etc.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Obtenha uma licença gratuita
Você pode usar o Aspose.Slides para Python via .NET sem limitações de avaliação obtendo uma licença temporária.
Conclusão
Neste artigo, você aprendeu como extrair texto de arquivos do PowerPoint em Python. Você viu como extrair texto de um slide específico ou de todos os slides de uma apresentação do PowerPoint. Além disso, você pode explorar outros recursos do Aspose.Slides for Python usando a documentação. Além disso, você pode compartilhar suas dúvidas conosco através do nosso fórum.