Trích xuất văn bản từ PowerPoint Java

Bạn thường có thể cần trích xuất văn bản từ các trang chiếu PowerPoint để thực hiện phân tích văn bản. Mặt khác, bạn có thể muốn trích xuất và lưu văn bản trong một tệp hoặc cơ sở dữ liệu để xử lý thêm. Theo đó, bài viết này trình bày cách trích xuất văn bản từ bản trình bày PowerPoint bằng Java. Đặc biệt, bạn sẽ học cách trích xuất văn bản từ một trang chiếu cụ thể hoặc toàn bộ bản trình bày.

API Java để trích xuất văn bản từ PowerPoint PPTX

Để thao tác với các bản trình bày PowerPoint, Aspose cung cấp Aspose.Slides for Java. API nói trên được thiết kế để triển khai các tính năng tự động hóa PowerPoint trong các ứng dụng Java. Nó cũng cung cấp một số cách đơn giản để trích xuất văn bản từ các bản trình bày PPT / PPTX. Bạn có thể tải xuống API hoặc cài đặt nó bằng cách sử dụng các cấu hình Maven sau.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-slides</artifactId>
    <version>21.7</version>
    <classifier>jdk16</classifier>
</dependency>

Trích xuất văn bản từ một trang chiếu PowerPoint trong Java

Sau đây là các bước để trích xuất văn bản từ một trang chiếu trong bản trình bày PowerPoint bằng Java.

Mẫu mã sau đây cho thấy cách trích xuất văn bản từ một trang chiếu PowerPoint.

//Instatiate PresentationEx lớp đại diện cho một tệp PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Nhận một mảng các đối tượng ITextFrame từ trang chiếu đầu tiên
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));

//Vòng qua Mảng TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
    //Lặp qua các đoạn trong TextFrame hiện tại
   for (IParagraph para : textFramesSlideOne[i].getParagraphs())
    {
        //Lặp qua các phần trong Đoạn hiện tại
       for (IPortion port : para.getPortions())
        {
            //Hiển thị văn bản trong phần hiện tại
            System.out.println(port.getText());

            //Hiển thị chiều cao phông chữ của văn bản
            System.out.println(port.getPortionFormat().getFontHeight());

            //Hiển thị tên phông chữ của văn bản
            System.out.println(port.getPortionFormat().getLatinFont().getFontName());
        }
    }
}

Trích xuất văn bản từ toàn bộ bản trình bày PowerPoint

Bạn cũng có thể trích xuất văn bản từ toàn bộ bản trình bày PowerPoint. Sau đây là các bước để thực hiện thao tác này.

  • Tải bản trình bày bằng lớp Trình bày.
  • Lấy tất cả các khung văn bản trong bản trình bày bằng phương pháp SlideUtil.getAllTextFrames().
  • Lặp qua từng ITextFrame và truy cập các đoạn của nó.
  • Truy cập các phần của đoạn văn và in văn bản của chúng.

Mẫu mã sau đây cho biết cách trích xuất văn bản từ bản trình bày PowerPoint.

//Instatiate PresentationEx lớp đại diện cho một tệp PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");

//Nhận một mảng các đối tượng ITextFrame từ trang chiếu đầu tiên
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);

//Vòng qua Mảng TextFrames
for (int i = 0; i < textFrames.length; i++)
{
    //Lặp qua các đoạn trong TextFrame hiện tại
   for (IParagraph para : textFrames[i].getParagraphs())
    {
        //Lặp qua các phần trong Đoạn hiện tại
       for (IPortion port : para.getPortions())
        {
            //Hiển thị văn bản trong phần hiện tại
            System.out.println(port.getText());
        }
    }
}

Nhận giấy phép API miễn phí

Trong trường hợp bạn muốn sử dụng API mà không có giới hạn đánh giá, bạn có thể nhận giấy phép tạm thời miễn phí.

Thử trực tuyến

Bạn cũng có thể thử trình phân tích cú pháp bản trình bày trực tuyến miễn phí, được phát triển bằng cách sử dụng Aspose.Slides.

Sự kết luận

Trong bài này, bạn đã học cách trích xuất văn bản từ bản trình bày PowerPoint bằng Java. Các mẫu mã đã chỉ ra cách trích xuất văn bản từ một trang chiếu cụ thể hoặc toàn bộ bản trình bày. Bạn có thể khám phá thêm về Aspose.Slides for Java bằng tài liệu. Trong trường hợp bạn có bất kỳ thắc mắc nào, hãy thông báo cho chúng tôi qua diễn đàn của chúng tôi.

Xem thêm