Ekstrak Teks dari File PowerPoint dengan Python

Dalam berbagai skenario, teks diekstraksi dari dokumen untuk diproses lebih lanjut seperti analisis teks, klasifikasi, dll. Di antara dokumen lain seperti PDF dan Word, file PowerPoint juga digunakan dalam ekstraksi teks. Oleh karena itu, artikel ini bertujuan untuk menunjukkan kepada Anda cara mengekstrak teks dari PowerPoint PPT dengan Python. Kami akan membahas cara mengekstrak teks dari slide tertentu atau keseluruhan presentasi.

Perpustakaan Python untuk Mengekstrak Teks dari PowerPoint PPT

Untuk mengekstrak teks dari PowerPoint PPT, kita akan menggunakan Aspose.Slides for Python via .NET. Ini adalah pustaka Python yang kaya fitur untuk membuat dan memperbarui presentasi PowerPoint. Selain itu, ini memungkinkan Anda untuk memanipulasi dan mengonversi presentasi dengan mulus. Anda dapat menginstal pustaka ini dari PyPI menggunakan perintah pip berikut.

> pip install aspose.slides 

Ekstrak Teks dari PowerPoint PPT dengan Python

Bergantung pada skenarionya, Anda mungkin perlu mengekstrak teks dari keseluruhan presentasi PowerPoint atau beberapa slide tertentu. Pada bagian berikut, kami akan mendemonstrasikan cara melakukan ekstraksi teks pada kedua kasus yang disebutkan di atas. Jadi mari kita lanjutkan.

Python: Ekstrak Teks dari Slide PPT Tertentu

Berikut ini adalah langkah-langkah untuk mengekstrak teks dari slide tertentu di PPT dengan Python.

Contoh kode berikut menunjukkan cara mengekstrak teks dari slide PPT tertentu dengan Python.

import aspose.slides as slides

# Dapatkan semua teks dari presentasi
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Cetak teks slide yang diinginkan menggunakan indeksnya
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

Ekstraksi Teks dari Seluruh PowerPoint PPT dengan Python

Langkah-langkah berikut menunjukkan cara mengekstrak teks dari semua slide presentasi PowerPoint.

Contoh kode berikut menunjukkan cara mengekstrak teks dari file PPTX (atau PPT) dengan Python.

import aspose.slides as slides

# Dapatkan semua teks dari presentasi
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# Muat presentasi untuk mendapatkan hitungan slide
with slides.Presentation("presentation.pptx") as ppt:

    # Ulangi slide dalam presentasi
   for index in range(ppt.slides.length):

        # Cetak teks bagian yang diinginkan seperti teks slide, teks tata letak, catatan, dll.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Perpustakaan Ekstraksi Teks Python PPT - Dapatkan Lisensi Gratis

Anda dapat menggunakan Aspose.Slides for Python tanpa batasan evaluasi dengan mendapatkan lisensi sementara.

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari PowerPoint PPT dengan Python. Anda telah melihat cara mengekstrak teks dari slide tertentu atau semua slide dalam presentasi PowerPoint. Selain itu, Anda dapat menjelajahi fitur Aspose.Slides lainnya untuk Python menggunakan dokumentasi. Selain itu, Anda dapat membagikan pertanyaan Anda kepada kami melalui forum kami.

Lihat juga