Định dạng HTML phổ biến vì nó được hỗ trợ trên hầu hết các môi trường máy tính. Chuyển đổi WORD sang HTML hoặc MHTML rất hữu ích trong các trường hợp như khi bạn cần hiển thị một tệp như vậy trong ứng dụng web bằng C++. Aspose.Words for C++ API là sự lựa chọn tốt nhất vì các tính năng và hiệu quả của nó. Bạn có thể làm phong phú thêm các ứng dụng C++ của mình với khả năng chuyển đổi các tệp Microsoft Word (DOC/DOCX) sang định dạng HTML hoặc MHTML. Sau đây là dàn ý của bài viết này, nơi chúng ta sẽ khám phá chi tiết về chuyển đổi Word:

C++ Microsoft Word Files Converter API – Cài đặt

Chúng ta cần cài đặt API Aspose.Words for C++ để chuyển đổi tệp Microsoft Word (DOCX/DOC). Bạn có thể dễ dàng cài đặt API từ thư viện NuGet hoặc cài đặt nó bằng lệnh sau trên bảng điều khiển.

Install-Package Aspose.Words.Cpp -Version 20.8.0

Chuyển đổi Word (DOCX/DOC) sang HTML bằng C++

Chuyển đổi Word sang HTML rất hữu ích khi bạn muốn kết xuất nội dung để hiển thị nội dung đó trong trình duyệt. Các ứng dụng C++ của bạn có thể nhanh chóng thực hiện chuyển đổi theo các bước sau:

  1. Tải tệp từ nguồn
  2. Lưu tài liệu ở định dạng HTML

Đoạn mã dưới đây cho thấy cách chuyển đổi từ sang HTML bằng C++:

// Tải tài liệu từ
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Test File.docx");

// Lưu tài liệu từ ở định dạng HTML
doc->Save(u"Document_out.html", SaveFormat::Html);

Chuyển đổi Word sang HTML với Phông chữ Nhúng bằng C++

Tệp từ (DOCX/DOC) có thể chứa một số phông chữ tùy chỉnh có thể không được hỗ trợ trên một số nền tảng. Trong những trường hợp như vậy, phông chữ có thể xuất hiện bị cắt xén trong kết quả đầu ra. Tuy nhiên, API Aspose.Words for C++ cho phép bạn nhúng tài nguyên phông chữ vào HTML bằng cách sử dụng mã hóa Base64. Bạn có thể đặt thuộc tính ExportFontsAsBase64 sẽ nhúng phông chữ vào tệp HTML đầu ra. Bạn cần làm theo các bước dưới đây để đạt được các yêu cầu này:

  1. Tải tệp DOCX nguồn
  2. Đặt thuộc tính ExportFontsAsBase64
  3. Lưu tệp HTML đầu ra

Đoạn mã sau đây cho biết cách chuyển đổi Word sang HTML bằng phông chữ Embedded bằng C++:

// Tải tệp DOCX nguồn
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Document.docx");

// Khởi tạo đối tượng HtmlSaveOptions
System::SharedPtr<HtmlSaveOptions> saveOptions = System::MakeObject<HtmlSaveOptions>();
saveOptions->set_ExportFontResources(true);
saveOptions->set_ExportFontsAsBase64(true);
        
// Lưu HTML đầu ra
System::String outputPath = u"ExportFontsAsBase64.html";
doc->Save(outputPath, saveOptions);

Ngoài ra, nếu bạn chỉnh sửa tệp HTML bằng Notepad hoặc xem mã nguồn trong trình duyệt, thì bạn có thể nhận thấy các phông chữ Base64 được nhúng vào tệp. Ảnh chụp màn hình sau hiển thị một ví dụ từ tệp HTML đầu ra:

Chuyển Word sang HTML

Chuyển đổi Word sang HTML với Thông tin khứ hồi trong C++

Tài liệu Microsoft Word có thể chứa nhiều thông tin và tính năng không được hỗ trợ ở định dạng tệp HTML. Đôi khi bạn cần chuyển đổi Word sang HTML rồi quay lại định dạng Word. Để đảm bảo độ trung thực tối đa giữa các chuyển đổi này, một số thông tin, được gọi là “thông tin khứ hồi” có thể được lưu bổ sung bởi API Aspose.Words for C++. Hãy để chúng tôi làm theo các bước sau để kiểm tra chuyển đổi như vậy:

  1. Tải tệp DOCX nguồn
  2. Đặt ExportRoundtripInformation thành true
  3. Lưu tệp HTML đầu ra

Đoạn mã dưới đây cho thấy cách chuyển đổi Word sang HTML với thông tin khứ hồi bằng C++:

// Tải tệp DOCX đầu vào
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Document.doc");

// Đặt HtmlSaveOptions
System::SharedPtr<HtmlSaveOptions> saveOptions = System::MakeObject<HtmlSaveOptions>();
saveOptions->set_ExportFontResources(true);
saveOptions->set_ExportFontsAsBase64(true);

// Lưu tệp HTML đầu ra        
System::String outputPath = u"ExportFontsAsBase64.html";
doc->Save(outputPath, saveOptions);

Chuyển Word sang MHTML trong C++

Định dạng tệp MHTML phổ biến vì nó chứa tất cả nội dung trong một tệp đầu ra. Bạn có thể chuyển đổi tệp Word (DOCX/DOC) sang định dạng MHTML bằng C++ theo các bước sau:

  1. Tải tệp DOCX nguồn
  2. Lưu đầu ra ở định dạng MHTML

Đoạn mã dưới đây cho thấy cách chuyển đổi Word sang MHTML bằng C++:

// Tải tài liệu vào Aspose.Words.
System::SharedPtr<Document> doc = System::MakeObject<Document>(u"Test File.docx");

// Lưu đầu ra ở định dạng MHTML.
doc->Save(u"Document_out.mhtml", SaveFormat::Mhtml);

Sự kết luận

Chúng ta đã học cách chuyển đổi Word (DOCX/DOC) sang HTML hoặc MHTML với các tùy chọn khác nhau. Một số tính năng như lưu thông tin khứ hồi hoặc nhúng phông chữ dưới dạng tài nguyên Base64 cũng được thảo luận chi tiết. Tuy nhiên, trong trường hợp có bất kỳ câu hỏi nào, vui lòng liên hệ với chúng tôi qua Diễn đàn hỗ trợ miễn phí.

Xem thêm