В различных сценариях текст извлекается из документов для дальнейшей обработки, такой как анализ текста, классификация и т. д. Среди других документов, таких как PDF и Word, файлы PowerPoint также используются для извлечения текста. Поэтому цель этой статьи — показать вам, как извлекать текст из файлов PowerPoint в Python. Мы расскажем, как извлечь текст из определенного слайда или всей презентации.
Библиотека Python для извлечения текста из файлов PowerPoint
Чтобы извлечь текст из файлов PowerPoint, мы будем использовать Aspose.Slides для Python через .NET. Это многофункциональная библиотека Python для создания и обновления презентаций PowerPoint. Кроме того, он позволяет легко манипулировать презентациями и преобразовывать их. Вы можете установить эту библиотеку из PyPI с помощью следующей команды pip.
> pip install aspose.slides
Извлечение текста из файлов PowerPoint в Python
В зависимости от сценария вам может потребоваться извлечь текст либо из всей презентации PowerPoint, либо из некоторых определенных слайдов. В следующих разделах мы покажем, как выполнять извлечение текста в обоих вышеупомянутых случаях. Итак, давайте продолжим.
Извлечь текст из определенного слайда
Ниже приведены шаги для извлечения текста из определенного слайда в PPT на Python.
Сначала используйте метод PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), чтобы получить все типы текста в презентации.
После этого используйте index для извлечения текста отдельного слайда из массива slidestext.
Ниже перечислены типы текста, которые вы можете извлечь:
Текст слайда
Заметки
Текст макета слайда
Основной текст слайда
В следующем примере кода показано, как извлечь текст из определенного слайда PPT в Python.
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Print text of the desired slide using its index
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Извлечение текста из всего файла PowerPoint в Python
Следующие шаги демонстрируют, как извлечь текст из всех слайдов презентации PowerPoint.
- Во-первых, используйте метод PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode), чтобы получить все типы текста в презентации.
- Загрузить презентацию в объект Презентация.
- Повторите количество слайдов в презентации.
- Извлеките текст из каждого слайда, используя массив slidestext.
В следующем примере кода показано, как извлечь текст из файла PPTX (или PPT) в Python.
import aspose.slides as slides
# Get all the text from presentation
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Load the presentation to get slide count
with slides.Presentation("presentation.pptx") as ppt:
# Loop through slides in the presentation
for index in range(ppt.slides.length):
# Print text of desired sections such as slide's text, layout text, notes, etc.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Получить бесплатную лицензию
Вы можете использовать Aspose.Slides для Python через .NET без ограничений по оценке, получив временную лицензию.
Вывод
В этой статье вы узнали, как извлекать текст из файлов PowerPoint в Python. Вы видели, как извлечь текст из определенного слайда или всех слайдов в презентации PowerPoint. Кроме того, вы можете изучить другие возможности Aspose.Slides for Python с помощью документации. Кроме того, вы можете поделиться с нами своими вопросами через наш форум.