Bạn thường có thể cần trích xuất văn bản từ các trang chiếu PowerPoint để thực hiện phân tích văn bản. Mặt khác, bạn có thể muốn trích xuất và lưu văn bản trong một tệp hoặc cơ sở dữ liệu để xử lý thêm. Theo đó, bài viết này trình bày cách trích xuất văn bản từ bản trình bày PowerPoint bằng Java. Đặc biệt, bạn sẽ học cách trích xuất văn bản từ một trang chiếu cụ thể hoặc toàn bộ bản trình bày.
- API để trích xuất văn bản từ PowerPoint PPTX
- Trích xuất văn bản từ một trang chiếu PowerPoint
- Trích xuất văn bản từ bản trình bày PowerPoint
API Java để trích xuất văn bản từ PowerPoint PPTX
Để thao tác với các bản trình bày PowerPoint, Aspose cung cấp Aspose.Slides for Java. API nói trên được thiết kế để triển khai các tính năng tự động hóa PowerPoint trong các ứng dụng Java. Nó cũng cung cấp một số cách đơn giản để trích xuất văn bản từ các bản trình bày PPT / PPTX. Bạn có thể tải xuống API hoặc cài đặt nó bằng cách sử dụng các cấu hình Maven sau.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-slides</artifactId>
<version>21.7</version>
<classifier>jdk16</classifier>
</dependency>
Trích xuất văn bản từ một trang chiếu PowerPoint trong Java
Sau đây là các bước để trích xuất văn bản từ một trang chiếu trong bản trình bày PowerPoint bằng Java.
- Tải bản trình bày bằng lớp Trình bày.
- Lấy tất cả các khung văn bản từ một trang chiếu vào mảng ITextFrame bằng phương thức SlideUtil.getAllTextBoxes().
- Lặp qua từng ITextFrame và truy cập văn bản của nó bằng phương thức ITextFrame.getParagraphs().
- Lấy và in văn bản từ mỗi Phần của đoạn văn.
Mẫu mã sau đây cho thấy cách trích xuất văn bản từ một trang chiếu PowerPoint.
//Instatiate PresentationEx lớp đại diện cho một tệp PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");
//Nhận một mảng các đối tượng ITextFrame từ trang chiếu đầu tiên
ITextFrame[] textFramesSlideOne = SlideUtil.getAllTextBoxes(pptxPresentation.getSlides().get_Item(1));
//Vòng qua Mảng TextFrames
for (int i = 0; i < textFramesSlideOne.length; i++)
{
//Lặp qua các đoạn trong TextFrame hiện tại
for (IParagraph para : textFramesSlideOne[i].getParagraphs())
{
//Lặp qua các phần trong Đoạn hiện tại
for (IPortion port : para.getPortions())
{
//Hiển thị văn bản trong phần hiện tại
System.out.println(port.getText());
//Hiển thị chiều cao phông chữ của văn bản
System.out.println(port.getPortionFormat().getFontHeight());
//Hiển thị tên phông chữ của văn bản
System.out.println(port.getPortionFormat().getLatinFont().getFontName());
}
}
}
Trích xuất văn bản từ toàn bộ bản trình bày PowerPoint
Bạn cũng có thể trích xuất văn bản từ toàn bộ bản trình bày PowerPoint. Sau đây là các bước để thực hiện thao tác này.
- Tải bản trình bày bằng lớp Trình bày.
- Lấy tất cả các khung văn bản trong bản trình bày bằng phương pháp SlideUtil.getAllTextFrames().
- Lặp qua từng ITextFrame và truy cập các đoạn của nó.
- Truy cập các phần của đoạn văn và in văn bản của chúng.
Mẫu mã sau đây cho biết cách trích xuất văn bản từ bản trình bày PowerPoint.
//Instatiate PresentationEx lớp đại diện cho một tệp PPTX
Presentation pptxPresentation = new Presentation("presentation.pptx");
//Nhận một mảng các đối tượng ITextFrame từ trang chiếu đầu tiên
ITextFrame[] textFrames = SlideUtil.getAllTextFrames(pptxPresentation, true);
//Vòng qua Mảng TextFrames
for (int i = 0; i < textFrames.length; i++)
{
//Lặp qua các đoạn trong TextFrame hiện tại
for (IParagraph para : textFrames[i].getParagraphs())
{
//Lặp qua các phần trong Đoạn hiện tại
for (IPortion port : para.getPortions())
{
//Hiển thị văn bản trong phần hiện tại
System.out.println(port.getText());
}
}
}
Nhận giấy phép API miễn phí
Trong trường hợp bạn muốn sử dụng API mà không có giới hạn đánh giá, bạn có thể nhận giấy phép tạm thời miễn phí.
Thử trực tuyến
Bạn cũng có thể thử trình phân tích cú pháp bản trình bày trực tuyến miễn phí, được phát triển bằng cách sử dụng Aspose.Slides.
Sự kết luận
Trong bài này, bạn đã học cách trích xuất văn bản từ bản trình bày PowerPoint bằng Java. Các mẫu mã đã chỉ ra cách trích xuất văn bản từ một trang chiếu cụ thể hoặc toàn bộ bản trình bày. Bạn có thể khám phá thêm về Aspose.Slides for Java bằng tài liệu. Trong trường hợp bạn có bất kỳ thắc mắc nào, hãy thông báo cho chúng tôi qua diễn đàn của chúng tôi.