Tách tài liệu trong Java

Bẻ tài liệu là công việc quan trọng trong xử lý thông tin, xử lý dữ liệu. Điều này có nghĩa là chia các văn bản hoặc tệp dài thành các phần nhỏ hơn để dễ quản lý hơn. Thông thường, người ta chia tài liệu theo từng trang hoặc một tập hợp các trang. Cho dù bạn có nhiều tài liệu nghiên cứu, báo cáo dài hay bộ dữ liệu, việc chia nhỏ tài liệu sẽ giúp sắp xếp mọi thứ ngăn nắp. Bài viết này sẽ giới thiệu đến các bạn bộ công cụ hữu ích để chia nhỏ tài liệu trong Java. Bằng cách này, bạn sẽ có thể tách các tài liệu ở định dạng Word, PDF, Excel và PowerPoint.

API Java để phân chia tài liệu

Aspose là công ty hàng đầu cung cấp API giúp chia tài liệu thành các phần nhỏ hơn một cách nhanh chóng và chính xác. Cho dù bạn đang làm việc với các tệp văn bản, bảng tính hay bản trình bày PPT, các API của Aspose giúp các lập trình viên thực hiện các tác vụ chia nhỏ tài liệu dễ dàng hơn. Hãy cùng khám phá các thư viện chia tài liệu này và xem cách chia các loại tài liệu khác nhau trong Java.

Tách tài liệu PDF trong Java

Tách Java PDF

Định dạng Tài liệu Di động (PDF) là định dạng ưa thích để in và chia sẻ tài liệu. Bố cục nhất quán của nó trên các nền tảng khác nhau làm cho nó trở thành một giải pháp phù hợp để chia sẻ tài liệu. Nếu bạn muốn chia nhỏ các tệp PDF trong Java, Aspose cung cấp Aspose.PDF for Java.

Aspose.PDF for Java giúp giảm bớt cách chia nhỏ tài liệu PDF và cho phép bạn tùy chỉnh các tiêu chí chia nhỏ theo yêu cầu của mình. Dưới đây là các bước mà bạn có thể làm theo để tách một tệp PDF trong Java.

  • Cài đặt Aspose.PDF for Java.
  • Tải tài liệu PDF bằng lớp Tài liệu.
  • Lặp lại các trang bằng Document.getPages() và truy cập từng trang bằng lớp Trang.
  • Trong mỗi lần lặp lại, hãy tạo một Tài liệu mới, thêm trang hiện tại vào tài liệu và lưu dưới dạng tệp PDF bằng phương thức Document.save(String).

Mẫu mã sau minh họa việc chia tài liệu PDF trong Java.

// mở tài liệu
Document pdfDocument = new Document("input.pdf");

// Đối với bộ đếm trang
int pageCount = 1;

// Lặp qua tất cả các trang
for (Page pdfPage : pdfDocument.getPages()) {
	// Tạo một tài liệu mới
	Document newDocument = new Document();

	// Thêm trang vào tài liệu
	newDocument.getPages().add(pdfPage);

	// Lưu dưới dạng PDF
	newDocument.save("page_" + pageCount + "_out" + ".pdf");
	pageCount++;
}

Đọc toàn bộ bài viết về tách tài liệu PDF bằng Java.

Bắt đầu với API xử lý tài liệu Java PDF bằng cách sử dụng các tài nguyên được cung cấp bên dưới:

Tách tài liệu Word trong Java

Tách từ Java

Microsoft Word hiện là một ứng dụng được sử dụng rộng rãi để tạo tài liệu văn bản, bao gồm báo cáo, hợp đồng, sơ yếu lý lịch và các dạng nội dung khác. Các tệp này thường được lưu trữ ở định dạng DOC và DOCX. Để chia tài liệu Microsoft Word, bạn có thể sử dụng Aspose.Words for Java do Aspose cung cấp.

Aspose.Words for Java là viết tắt của API xử lý văn bản mạnh mẽ bao gồm nhiều khả năng khác nhau để tạo và thao tác với tài liệu Word. API cung cấp một cách liền mạch và chính xác để chia tài liệu Word. Hãy đi sâu vào quá trình chia nhỏ tài liệu Word bằng Java bằng cách tận dụng các khả năng của Aspose.Words for Java.

  • Cài đặt Aspose.Words for Java.
  • Tải tài liệu Word bằng lớp Tài liệu.
  • Tạo một đối tượng của lớp DocumentPageSplitter và khởi tạo nó với đối tượng Document.
  • Lặp lại qua các trang của tài liệu.
  • Trích xuất từng trang vào một đối tượng Tài liệu mới bằng cách sử dụng phương thức DocumentPageSplitter.getDocumentOfPage(int PageIndex).
  • Lưu từng tài liệu bằng phương thức Document.save(String).

Mẫu mã Java bên dưới minh họa việc chia nhỏ tài liệu Word.

// Để biết các ví dụ và tệp dữ liệu đầy đủ, vui lòng truy cập https://github.com/aspose-words/Aspose.Words-for-Java
// Mở một tài liệu Word
Document doc = new Document("Word.docx");

// Tách các nút trong tài liệu thành các trang riêng biệt
DocumentPageSplitter splitter = new DocumentPageSplitter(doc);

// Lưu từng trang dưới dạng một tài liệu riêng biệt
for (int page = 1; page <= doc.getPageCount(); page++)
{
    Document pageDoc = splitter.getDocumentOfPage(page);
    pageDoc.save("SplitDocumentByPage_" + page + ".docx");
}

Đọc toàn bộ bài viết về tách tài liệu Word bằng Java.

Bạn có thể bắt đầu với API tách tài liệu Java Word bằng cách sử dụng các tài nguyên được cung cấp bên dưới.

Tách bảng tính Excel trong Java

Tách bảng tính Java

MS Excel là một công cụ mạnh mẽ cho phép bạn lưu giữ, sắp xếp và quản lý dữ liệu trong trang tính và sổ làm việc. Bạn có thể sử dụng nhiều tính năng do MS Excel cung cấp để xử lý dữ liệu, tạo biểu diễn trực quan, thực hiện các phép tính số, v.v. Để chia nhỏ bảng tính trong Java, Aspose cung cấp Aspose.Cells for Java.

Giống như các API đã đề cập trước đó, Aspose.Cells for Java cũng giúp bạn dễ dàng tách các trang tính từ sổ làm việc và lưu chúng thành các tệp riêng biệt. Chỉ cần mở sổ làm việc Excel mà bạn muốn, chia nó thành các bảng tính mới và bạn đã có sổ làm việc đó – việc chia các bảng tính Excel trong Java đã hoàn tất!

  • Cài đặt Aspose.Cells for Java.
  • Tải tệp Excel bằng lớp Workbook.
  • Tạo một đối tượng Workbook mới.
  • Sao chép trang tính từ sổ làm việc nguồn sang sổ làm việc mới được tạo.
  • Lưu sổ làm việc mới bằng phương thức Workbook.save().

Mẫu mã dưới đây trình bày cách tách một bảng tính Excel trong Java.

// Tải sổ làm việc Excel nguồn
Workbook source = new Workbook("source.xls");

// Tạo sổ làm việc Excel mới
Workbook destination = new Workbook();

// Sao chép trang tính đầu tiên của sổ làm việc nguồn vào sổ làm việc thứ hai
destination.getWorksheets().get(0).copy(source.getWorksheets().get(0));

// Lưu các tập tin.
destination.save("splitted.xls", FileFormatType.EXCEL_97_TO_2003);

Khám phá API xử lý bảng tính Java bằng các tài nguyên được liệt kê bên dưới:

Chia tách PPT Java PowerPoint

Tách Java PowerPoint

Để chia nhỏ bản trình bày PowerPoint PPT, bạn có thể sử dụng Aspose.Slides dành cho Java. Đó là một API Java mạnh mẽ để tạo, sửa đổi và chuyển đổi các bản trình bày PowerPoint như PPT, PPTX, PPS, POT và ODP. Aspose.Slides dành cho Java là một lựa chọn ưu tiên cho các nhà phát triển Java để làm việc với các bản trình bày PowerPoint trong các ứng dụng khác nhau.

Vì vậy, hãy xem cách chia nhỏ PowerPoint PPT trong Java bằng cách sử dụng Aspose.Slides for Java.

  • Cài đặt Aspose.Slides for Java.
  • Đầu tiên, tạo một thể hiện của lớp Bản trình bày để tải bản trình bày PowerPoint.
  • Sau đó, lặp qua từng ISlide bằng phương thức Presentation.getSlides().
  • Trong mỗi lần lặp lại, hãy thực hiện các bước sau:
    • Tạo một thể hiện của lớp Trình bày.
    • Xóa trang trình bày mặc định khỏi bản trình bày.
    • Thêm trang chiếu vào bản trình bày bằng phương thức Presentation.getSlides().addClone(ISlide).
    • Cuối cùng, lưu bản trình bày bằng phương thức Presentation.save(String, SaveFormat).

Mẫu mã sau đây cho biết cách tách PowerPoint PPT trong Java:

// Tải bản trình bày PowerPoint
Presentation presentation = new Presentation("presentation.pptx");

// Lặp lại qua các trang trình bày trong bản trình bày
for (ISlide sld : presentation.getSlides()) {
	// Tạo bản trình bày mới
	Presentation newPres = new Presentation();
	
	// Xóa trang trình bày mặc định
	newPres.getSlides().get_Item(0).remove();
	
	// Thêm trang trình bày vào bản trình bày
	newPres.getSlides().addClone(sld);
               
	// Lưu bản trình bày
	newPres.save(String.format("Slide_{0}.pptx", sld.getSlideNumber()), SaveFormat.Pptx);
}

Đọc toàn bộ bài viết về cách chia nhỏ bản trình bày PPT trong Java:

Dưới đây là một số tài nguyên hữu ích để khám phá thêm về API xử lý Java PowerPoint.

Nhận giấy phép miễn phí

Nhận giấy phép miễn phí của bạn và thực hiện chia tách tài liệu mà không có bất kỳ giới hạn đánh giá nào.

Tổng hợp

Mọi người thường sử dụng tính năng tách tài liệu khi họ cần chuyển đổi tài liệu lớn thành tài liệu nhỏ hơn. Điều này giúp dễ dàng xử lý và làm việc với các tài liệu có ít trang hoặc phần hơn. Trong hướng dẫn này, chúng tôi đã chỉ cho bạn cách chia nhỏ các loại tài liệu khác nhau trong Java. Chúng tôi đã giải thích cách chia nhỏ tệp PDF, tệp Word, bản trình bày PowerPoint và bảng tính Excel bằng các ví dụ về mã. Bạn có thể dễ dàng thêm các API được cung cấp vào các ứng dụng Java của mình và chia tài liệu một cách liền mạch.