Dalam berbagai skenario, teks diekstraksi dari dokumen untuk diproses lebih lanjut seperti analisis teks, klasifikasi, dll. Di antara dokumen lain seperti PDF dan Word, file PowerPoint juga digunakan dalam ekstraksi teks. Oleh karena itu, artikel ini bertujuan untuk menunjukkan kepada Anda cara mengekstrak teks dari PowerPoint PPT dengan Python. Kami akan membahas cara mengekstrak teks dari slide tertentu atau keseluruhan presentasi.
Perpustakaan Python untuk Mengekstrak Teks dari PowerPoint PPT
Untuk mengekstrak teks dari PowerPoint PPT, kita akan menggunakan Aspose.Slides for Python via .NET. Ini adalah pustaka Python yang kaya fitur untuk membuat dan memperbarui presentasi PowerPoint. Selain itu, ini memungkinkan Anda untuk memanipulasi dan mengonversi presentasi dengan mulus. Anda dapat menginstal pustaka ini dari PyPI menggunakan perintah pip berikut.
> pip install aspose.slides
Ekstrak Teks dari PowerPoint PPT dengan Python
Bergantung pada skenarionya, Anda mungkin perlu mengekstrak teks dari keseluruhan presentasi PowerPoint atau beberapa slide tertentu. Pada bagian berikut, kami akan mendemonstrasikan cara melakukan ekstraksi teks pada kedua kasus yang disebutkan di atas. Jadi mari kita lanjutkan.
Python: Ekstrak Teks dari Slide PPT Tertentu
Berikut ini adalah langkah-langkah untuk mengekstrak teks dari slide tertentu di PPT dengan Python.
Pertama, gunakan metode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) untuk mendapatkan semua jenis teks dalam presentasi.
Setelah itu, gunakan indeks untuk mengekstrak teks dari slide tertentu dari array teks slide.
Berikut ini adalah jenis teks yang dapat Anda ekstrak:
Teks Slide
Catatan
Teks tata letak slide
Geser teks master
Contoh kode berikut menunjukkan cara mengekstrak teks dari slide PPT tertentu dengan Python.
import aspose.slides as slides
# Dapatkan semua teks dari presentasi
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Cetak teks slide yang diinginkan menggunakan indeksnya
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)
Ekstraksi Teks dari Seluruh PowerPoint PPT dengan Python
Langkah-langkah berikut menunjukkan cara mengekstrak teks dari semua slide presentasi PowerPoint.
- Pertama, gunakan metode PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) untuk mendapatkan semua jenis teks dalam presentasi.
- Muat presentasi dalam objek Presentation.
- Ulangi melalui jumlah slide dalam presentasi.
- Ekstrak teks dari setiap slide menggunakan array teks slide.
Contoh kode berikut menunjukkan cara mengekstrak teks dari file PPTX (atau PPT) dengan Python.
import aspose.slides as slides
# Dapatkan semua teks dari presentasi
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)
# Muat presentasi untuk mendapatkan hitungan slide
with slides.Presentation("presentation.pptx") as ppt:
# Ulangi slide dalam presentasi
for index in range(ppt.slides.length):
# Cetak teks bagian yang diinginkan seperti teks slide, teks tata letak, catatan, dll.
print(text.slides_text[index].text)
print(text.slides_text[index].layout_text)
print(text.slides_text[index].master_text)
print(text.slides_text[index].notes_text)
Perpustakaan Ekstraksi Teks Python PPT - Dapatkan Lisensi Gratis
Anda dapat menggunakan Aspose.Slides for Python tanpa batasan evaluasi dengan mendapatkan lisensi sementara.
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari PowerPoint PPT dengan Python. Anda telah melihat cara mengekstrak teks dari slide tertentu atau semua slide dalam presentasi PowerPoint. Selain itu, Anda dapat menjelajahi fitur Aspose.Slides lainnya untuk Python menggunakan dokumentasi. Selain itu, Anda dapat membagikan pertanyaan Anda kepada kami melalui forum kami.