Định dạng tệp Microsoft Word DOC/DOCX nổi tiếng vì trình xử lý văn bản hỗ trợ nhiều tính năng để sắp xếp và giải thích thông tin. Tương tự như vậy, định dạng tệp HTML rất hữu ích để hiển thị thông tin trong các ứng dụng web. Trong bài viết này, bạn sẽ học cách chuyển đổi tệp Word (DOC/DOCX) sang HTML hoặc HTML5 bằng cách sử dụng Java. Sau đây là các trường hợp sử dụng mà bạn sẽ khám phá ở đây:

Trình chuyển đổi Java DOCX sang HTML hoặc HTML5 - Cài đặt

Trước tiên, bạn có thể dễ dàng định cấu hình API Aspose.Words for Java trong các ứng dụng của mình. Bạn có thể tải xuống tệp JAR từ Phần phát hành mới, nơi tất cả các API được cập nhật hầu như mỗi tháng. Ngoài ra, tất cả các API Java do Aspose cung cấp đều được lưu trữ trên kho lưu trữ Maven. Tương tự như vậy, phần phụ thuộc Aspose.Words for Java có thể được xác định trong dự án Maven của bạn với các cấu hình sau:

Kho:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

phụ thuộc:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Bây giờ chúng ta đã sẵn sàng để chuyển đổi DOCX sang HTML trong một ứng dụng Java.

Chuyển đổi Word (DOC/DOCX) sang HTML bằng Java

Bạn có thể chuyển đổi Word sang HTML bằng cách làm theo các bước dưới đây:

  1. Tải tệp Word nguồn có phần mở rộng DOC hoặc DOCX
  2. Lưu tệp dưới dạng HTML đầu ra

Mẫu mã dưới đây cho thấy cách chuyển đổi DOCX sang HTML bằng Java:

// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "TestFile.docx");
// Lưu tài liệu vào HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Nhập tệp DOCX Xem trước

Word sang HTML trong Java

Đầu ra tệp HTML Xem trước

DOCX sang HTML trong Java

Vì vậy, bạn có thể nhận thấy độ trung thực cao của kết xuất tài liệu với các ảnh chụp màn hình này. API có khả năng chuyển đổi văn bản, hình ảnh, bảng và hơn thế nữa.

Chuyển đổi DOCX sang HTML5 bằng Java

HTML5 là phiên bản mới nhất của HTML. Chúng tôi đã ghi nhận nhiều lần yêu cầu hỗ trợ HTML5 trong Aspose.Words API. Do đó, chuyển đổi DOCX sang HTML5 được hỗ trợ và bạn có thể chuyển đổi tệp theo các bước sau:

  1. Đầu tiên, tải tệp DOCX đầu vào
  2. Đặt HtmlSaveOptions trong khi đặt SaveFormat
  3. Đặt giá trị liệt kê của HtmlVersion.HTML5
  4. Lưu tập tin đầu ra

Đoạn mã dưới đây cho thấy cách chuyển đổi DOCX sang HTML5 trong Java:

// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Chuyển đổi tệp Word được bảo vệ bằng mật khẩu sang HTML bằng Java

Các tệp DOC hoặc DOCX đôi khi được bảo vệ bằng mật khẩu hoặc được mã hóa bằng mật khẩu. Bạn cũng có thể chuyển đổi các tệp như vậy sang HTML. Tuy nhiên, bạn sẽ cần mật khẩu trong khi tải tệp từ. Bạn có thể làm theo các bước dưới đây để chuyển đổi DOCX sang HTML:

  1. Đầu tiên, khởi tạo một đối tượng của lớp LoadOptions
  2. Đặt mật khẩu
  3. Tải tệp DOCX được mã hóa
  4. Chuyển đổi DOCX sang HTML

Tương tự như vậy, mẫu mã sau đây cho thấy cách chuyển đổi tệp DOCX được bảo vệ bằng mật khẩu sang HTML bằng Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Lưu tài liệu ở định dạng HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Chuyển Word sang MHTML bằng Java

Các tệp MHTML là các tệp đơn lẻ chứa nội dung và phương tiện được nhúng. Bạn có thể chuyển đổi các tệp từ (DOC/DOCX) sang MHTML theo các bước sau:

  1. Tải tệp DOCX đầu vào
  2. Lưu tệp MHTML đầu ra bằng SaveFormat.MHTML

Đoạn mã dưới đây dựa trên các bước này. Do đó, nó chỉ ra cách chuyển đổi DOCX sang MHML bằng Java:

// Tải tài liệu từ từ đĩa.
Document doc = new Document(dataDir + "TestFile.docx");
// Lưu tài liệu vào MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Sự kết luận

Cuối cùng, chúng ta đã học được cách chuyển đổi tài liệu word mà không cần Microsoft Word. Ví dụ: DOCX sang HTML, MHTML hoặc HTML5 theo yêu cầu của bạn. Tương tự như vậy, chúng tôi đã quan sát bằng ảnh chụp màn hình rằng quá trình chuyển đổi được thực hiện với độ trung thực cao và khả năng tương thích giữa các định dạng tệp. Vì vậy, bạn có thể thử API trong môi trường Java của riêng mình. Tuy nhiên, nếu bạn gặp phải bất kỳ sự cố nào trong khi thiết lập hoặc thử nghiệm API thì bạn có thể liên hệ với chúng tôi qua Diễn đàn hỗ trợ miễn phí!

Xem thêm