Витягніть текст із файлів PowerPoint у Python

У різних сценаріях текст витягується з документів для подальшої обробки, як-от аналіз тексту, класифікація тощо. Серед інших документів, таких як PDF і Word, файли PowerPoint також використовуються для вилучення тексту. Тому ця стаття має на меті показати вам, як витягти текст із PowerPoint PPT у Python. Ми розглянемо, як витягти текст із певного слайда чи всієї презентації.

Бібліотека Python для вилучення тексту з PowerPoint PPT

Щоб отримати текст із PowerPoint PPT, ми використаємо Aspose.Slides for Python через .NET. Це багатофункціональна бібліотека Python для створення та оновлення презентацій PowerPoint. Крім того, це дозволяє легко маніпулювати та конвертувати презентації. Ви можете встановити цю бібліотеку з PyPI за допомогою такої команди pip.

> pip install aspose.slides 

Витягніть текст із PowerPoint PPT на Python

Залежно від сценарію вам може знадобитися витягнути текст або з усієї презентації PowerPoint, або з певного слайда(ів). У наступних розділах ми продемонструємо, як виконати вилучення тексту в обох вищезгаданих випадках. Отже, давайте продовжимо.

Python: вилучення тексту з певного слайда PPT

Нижче наведено кроки для отримання тексту з певного слайда в PPT у Python.

  • Спочатку використовуйте метод PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), щоб отримати всі типи тексту в презентації.

  • Після цього за допомогою індексу витягніть текст окремого слайда з масиву slidestext.

  • Нижче наведено типи тексту, які можна витягти.

    • Текст слайда

    • Примітки

    • Текст макета слайда

    • Шаблонний текст слайда

У наведеному нижче прикладі коду показано, як отримати текст із певного слайда PPT у Python.

import aspose.slides as slides

# Отримати весь текст із презентації
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Роздрукувати текст потрібного слайда за його індексом
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Вилучення тексту Python із усього PowerPoint PPT

Наступні кроки демонструють, як витягти текст з усіх слайдів презентації PowerPoint.

  • Спочатку використовуйте метод PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), щоб отримати всі типи тексту в презентації.
  • Завантажити презентацію в об’єкт Presentation.
  • Переглядайте кількість слайдів у презентації.
  • Витягніть текст із кожного слайда за допомогою масиву slidestext.

У наведеному нижче прикладі коду показано, як отримати текст із файлу PPTX (або PPT) у Python.

import aspose.slides as slides

# Отримати весь текст із презентації
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Завантажте презентацію, щоб отримати кількість слайдів
with slides.Presentation("presentation.pptx") as ppt:

    # Переглядайте слайди презентації
   for index in range(ppt.slides.length):

        # Друк тексту потрібних розділів, як-от текст слайда, текст макета, примітки тощо.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Бібліотека вилучення тексту PPT Python – отримайте безкоштовну ліцензію

Ви можете використовувати Aspose.Slides for Python без обмежень оцінки, отримавши тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як видобувати текст із PowerPoint PPT у Python. Ви бачили, як витягнути текст із певного слайда або всіх слайдів у презентації PowerPoint. Крім того, ви можете дослідити інші функції Aspose.Slides for Python за допомогою документації. Крім того, ви можете поділитися своїми запитами з нами через наш форум.

Дивись також