แยกข้อความจากไฟล์ PowerPoint ใน Python

ในสถานการณ์ต่างๆ ข้อความจะถูกแยกออกจากเอกสารเพื่อการประมวลผลเพิ่มเติม เช่น ในการวิเคราะห์ข้อความ การจัดหมวดหมู่ เป็นต้น ในบรรดาเอกสารอื่นๆ เช่น PDF และ Word ไฟล์ PowerPoint ยังใช้ในการแยกข้อความอีกด้วย ดังนั้น บทความนี้มีวัตถุประสงค์เพื่อแสดงวิธีแยกข้อความจาก PowerPoint PPT ใน Python เราจะกล่าวถึงวิธีการดึงข้อความจากสไลด์หรืองานนำเสนอทั้งหมด

Python Library เพื่อแยกข้อความจาก PowerPoint PPT

ในการแยกข้อความจาก PowerPoint PPT เราจะใช้ Aposose.Slides for Python via .NET เป็นไลบรารี Python ที่มีคุณลักษณะหลากหลายเพื่อสร้างและอัปเดตงานนำเสนอ PowerPoint นอกจากนี้ยังช่วยให้คุณสามารถจัดการและแปลงงานนำเสนอได้อย่างราบรื่น คุณสามารถติดตั้งไลบรารีนี้ได้จาก PyPI โดยใช้คำสั่ง pip ต่อไปนี้

> pip install aspose.slides 

แยกข้อความจาก PowerPoint PPT ใน Python

คุณอาจต้องแยกข้อความจากงานนำเสนอ PowerPoint ทั้งหมดหรือบางสไลด์ทั้งนี้ขึ้นอยู่กับสถานการณ์ ในส่วนต่อไปนี้ เราจะสาธิตวิธีการแยกข้อความในทั้งสองกรณีที่กล่าวถึงข้างต้น มาดำเนินการต่อ

Python: แยกข้อความจากสไลด์ PPT เฉพาะ

ต่อไปนี้เป็นขั้นตอนในการแยกข้อความจากสไลด์เฉพาะใน PPT ใน Python

  • ขั้นแรก ใช้เมธอด PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) เพื่อรับข้อความทุกประเภทในงานนำเสนอ

  • หลังจากนั้น ใช้ดัชนีเพื่อแยกข้อความของสไลด์เฉพาะออกจากอาร์เรย์ข้อความของสไลด์

  • ต่อไปนี้คือประเภทของข้อความที่คุณสามารถแยกได้:

    • ข้อความของสไลด์

    • หมายเหตุ

    • ข้อความเค้าโครงสไลด์

    • ข้อความต้นแบบสไลด์

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากสไลด์ PPT เฉพาะใน Python

import aspose.slides as slides

# รับข้อความทั้งหมดจากการนำเสนอ
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# พิมพ์ข้อความของสไลด์ที่ต้องการโดยใช้ดัชนี
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

การสกัดข้อความจาก PowerPoint PPT ทั้งหมดใน Python

ขั้นตอนต่อไปนี้สาธิตวิธีแยกข้อความจากสไลด์ทั้งหมดของงานนำเสนอ PowerPoint

  • ขั้นแรก ใช้เมธอด PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) เพื่อรับข้อความทุกประเภทในงานนำเสนอ
  • โหลดงานนำเสนอในวัตถุ Presentation
  • ทำซ้ำตามจำนวนสไลด์ในงานนำเสนอ
  • แยกข้อความจากแต่ละสไลด์โดยใช้อาร์เรย์ข้อความของสไลด์

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกข้อความจากไฟล์ PPTX (หรือ PPT) ใน Python

import aspose.slides as slides

# รับข้อความทั้งหมดจากการนำเสนอ
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# โหลดงานนำเสนอเพื่อรับจำนวนสไลด์
with slides.Presentation("presentation.pptx") as ppt:

    # วนซ้ำสไลด์ในงานนำเสนอ
   for index in range(ppt.slides.length):

        # พิมพ์ข้อความในส่วนที่ต้องการ เช่น ข้อความในสไลด์ ข้อความเค้าโครง บันทึก ฯลฯ
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

Python PPT Text Extraction Library - รับใบอนุญาตฟรี

คุณสามารถใช้ Aspose.Slides for Python ได้โดยไม่มีข้อจำกัดในการประเมินโดยรับ ใบอนุญาตชั่วคราว

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีแยกข้อความจาก PowerPoint PPT ใน Python คุณได้เห็นวิธีแยกข้อความจากสไลด์เฉพาะหรือสไลด์ทั้งหมดในงานนำเสนอ PowerPoint นอกจากนี้ คุณสามารถสำรวจคุณลักษณะอื่นๆ ของ Aspose.Slides for Python โดยใช้ เอกสารประกอบ นอกจากนี้ คุณสามารถแบ่งปันคำถามของคุณกับเราผ่านทาง ฟอรัม

ดูสิ่งนี้ด้วย