Trích xuất văn bản từ tệp PowerPoint bằng Python

Trong các tình huống khác nhau, văn bản được trích xuất từ các tài liệu để xử lý thêm như phân tích, phân loại văn bản, v.v. Trong số các tài liệu khác như PDF và Word, các tệp PowerPoint cũng được sử dụng để trích xuất văn bản. Do đó, bài viết này nhằm mục đích chỉ cho bạn cách trích xuất văn bản từ PowerPoint PPT bằng Python. Chúng tôi sẽ trình bày cách trích xuất văn bản từ một trang chiếu cụ thể hoặc toàn bộ bản trình bày.

Thư viện Python để trích xuất văn bản từ PowerPoint PPT

Để trích xuất văn bản từ PowerPoint PPT, chúng tôi sẽ sử dụng Aspose.Slides for Python qua .NET. Đây là một thư viện Python giàu tính năng để tạo và cập nhật các bản trình bày PowerPoint. Hơn nữa, nó cho phép bạn thao tác và chuyển đổi các bài thuyết trình một cách liền mạch. Bạn có thể cài đặt thư viện này từ PyPI bằng lệnh pip sau.

> pip install aspose.slides 

Trích xuất văn bản từ PowerPoint PPT bằng Python

Tùy thuộc vào tình huống, bạn có thể cần trích xuất văn bản từ toàn bộ bản trình bày PowerPoint hoặc một số trang chiếu cụ thể. Trong các phần tiếp theo, chúng tôi sẽ trình bày cách thực hiện trích xuất văn bản trong cả hai trường hợp nêu trên. Vì vậy, chúng ta hãy tiến hành.

Python: Trích xuất văn bản từ một trang trình bày PPT cụ thể

Sau đây là các bước để trích xuất văn bản từ một trang trình bày cụ thể trong PPT bằng Python.

  • Đầu tiên, sử dụng phương thức PresentationFactory(). Getpresentationtext (string, TextExtractionArrankingMode) để lấy tất cả các loại văn bản trong bản trình bày.

  • Sau đó, sử dụng chỉ mục để trích xuất văn bản của một trang chiếu riêng biệt từ mảng văn bản.

  • Sau đây là các loại văn bản bạn có thể trích xuất:

    • Văn bản của Trang trình bày

    • Ghi chú

    • Văn bản bố cục trang trình bày

    • Văn bản chính của trang trình bày

Mẫu mã sau đây cho thấy cách trích xuất văn bản từ một trang trình bày PPT cụ thể bằng Python.

import aspose.slides as slides

# Nhận tất cả văn bản từ bản trình bày
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# In văn bản của trang chiếu mong muốn bằng cách sử dụng chỉ mục của nó
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Trích xuất văn bản từ PPT toàn bộ PowerPoint bằng Python

Các bước sau đây trình bày cách trích xuất văn bản từ tất cả các trang chiếu của bản trình bày PowerPoint.

Mẫu mã sau đây cho thấy cách trích xuất văn bản từ tệp PPTX (hoặc PPT) bằng Python.

import aspose.slides as slides

# Nhận tất cả văn bản từ bản trình bày
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Tải bản trình bày để nhận số lượng trang trình bày
with slides.Presentation("presentation.pptx") as ppt:

    # Lặp qua các trang trình bày trong bản trình bày
   for index in range(ppt.slides.length):

        # In văn bản của các phần mong muốn như văn bản của trang chiếu, văn bản bố cục, ghi chú, v.v.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Thư viện trích xuất văn bản PPT trong Python - Nhận giấy phép miễn phí

Bạn có thể sử dụng Aspose.Slides for Python mà không có giới hạn đánh giá bằng cách nhận giấy phép tạm thời.

Sự kết luận

Trong bài viết này, bạn đã học cách trích xuất văn bản từ PowerPoint PPT bằng Python. Bạn đã thấy cách trích xuất văn bản từ một trang chiếu cụ thể hoặc tất cả các trang chiếu trong bản trình bày PowerPoint. Bên cạnh đó, bạn có thể khám phá các tính năng khác của Aspose.Slides for Python bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể chia sẻ các thắc mắc của mình với chúng tôi qua diễn đàn của chúng tôi.

Xem thêm