متن را از فایل های پاورپوینت در پایتون استخراج کنید

در سناریوهای مختلف، متن برای پردازش بیشتر مانند تجزیه و تحلیل متن، طبقه بندی و … از اسناد استخراج می شود. در میان اسناد دیگر مانند PDF و Word، فایل های پاورپوینت نیز در استخراج متن استفاده می شود. بنابراین، این مقاله قصد دارد به شما نشان دهد چگونه متن را از PowerPoint PPT در پایتون استخراج کنید. نحوه استخراج متن از یک اسلاید خاص یا کل ارائه را توضیح خواهیم داد.

کتابخانه پایتون برای استخراج متن از پاورپوینت PPT

برای استخراج متن از PowerPoint PPT، از Aspose.Slides for Python via .NET استفاده می کنیم. این یک کتابخانه Python غنی از ویژگی ها برای ایجاد و به روز رسانی ارائه های پاورپوینت است. علاوه بر این، به شما امکان می دهد ارائه ها را به طور یکپارچه دستکاری و تبدیل کنید. می توانید این کتابخانه را از PyPI با استفاده از دستور pip زیر نصب کنید.

> pip install aspose.slides 

متن را از پاورپوینت PPT در پایتون استخراج کنید

بسته به سناریو، ممکن است لازم باشد متنی را از کل ارائه پاورپوینت یا برخی از اسلایدهای خاص استخراج کنید. در بخش‌های بعدی نحوه استخراج متن در هر دو مورد فوق را نشان خواهیم داد. پس بیایید ادامه دهیم.

پایتون: متن را از یک اسلاید PPT خاص استخراج کنید

در زیر مراحل استخراج متن از یک اسلاید خاص در PPT در پایتون آمده است.

  • ابتدا از روش PresentationFactory().getpresentationtext(string, TextExtractionArrangingMode) برای دریافت انواع متن در ارائه استفاده کنید.

  • پس از آن، از index برای استخراج متن یک اسلاید sepcific از آرایه slidestext استفاده کنید.

  • انواع متنی که می توانید استخراج کنید عبارتند از:

    • متن اسلاید

    • یادداشت

    • متن طرح بندی اسلاید

    • متن اصلی اسلاید

نمونه کد زیر نحوه استخراج متن از یک اسلاید PPT خاص در پایتون را نشان می دهد.

import aspose.slides as slides

# تمام متن را از ارائه دریافت کنید
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# متن اسلاید مورد نظر را با استفاده از فهرست آن چاپ کنید
print(text.slides_text[0].text)
print(text.slides_text[0].layout_text)
print(text.slides_text[0].master_text)
print(text.slides_text[0].notes_text)

استخراج متن از کل پاورپوینت PPT در پایتون

مراحل زیر نحوه استخراج متن از تمام اسلایدهای ارائه پاورپوینت را نشان می دهد.

نمونه کد زیر نحوه استخراج متن از فایل PPTX (یا PPT) در پایتون را نشان می دهد.

import aspose.slides as slides

# تمام متن را از ارائه دریافت کنید
text = slides.PresentationFactory().get_presentation_text("presentation.pptx", slides.TextExtractionArrangingMode.UNARRANGED)

# برای دریافت تعداد اسلایدها، ارائه را بارگیری کنید
with slides.Presentation("presentation.pptx") as ppt:

    # اسلایدها را در ارائه حلقه بزنید
   for index in range(ppt.slides.length):

        # چاپ متن بخش های مورد نظر مانند متن اسلاید، متن طرح بندی، یادداشت ها و غیره.
        print(text.slides_text[index].text)
        print(text.slides_text[index].layout_text)
        print(text.slides_text[index].master_text)
        print(text.slides_text[index].notes_text)

کتابخانه استخراج متن Python PPT - یک مجوز رایگان دریافت کنید

شما می توانید با دریافت [مجوز موقت] از Aspose.Slides برای پایتون بدون محدودیت ارزیابی استفاده کنید.

نتیجه

در این مقاله نحوه استخراج متن از پاورپوینت PPT در پایتون را یاد گرفتید. نحوه استخراج متن از یک اسلاید خاص یا تمام اسلایدهای یک ارائه پاورپوینت را دیده اید. علاوه بر این، می‌توانید سایر ویژگی‌های Aspose.Slides برای پایتون را با استفاده از اسناد کاوش کنید. همچنین، می توانید سوالات خود را از طریق [تالار گفتمان8 با ما در میان بگذارید.

همچنین ببینید