Chuyển Word DOC DOCX sang HTML MHTML

Bài viết này trình bày cách chuyển đổi tài liệu Word DOC DOCX thành HTML hoặc MHTML bằng C# hoặc VB.NET. Aspose.Words for .NET API có thể được sử dụng để thực hiện chuyển đổi này khá dễ dàng. Chuyển đổi tài liệu Microsoft Word là trường hợp sử dụng phổ biến nên các tùy chọn khác nhau được API hỗ trợ. Bạn có thể xem qua các tiêu đề được đề cập trong bài viết này:

API chuyển đổi từ C# sang HTML hoặc MHTML

Aspose.Words for .NET API được thiết kế đặc biệt để hoạt động với các định dạng tệp được Microsoft Word hỗ trợ. Bạn có thể chuyển đổi tệp DOCX hoặc DOC sang định dạng tệp HTML hoặc MHTML bằng cách tải xuống API từ phần Bản phát hành mới hoặc bằng cách cài đặt nó từ NuGet bằng lệnh bên dưới:

Install-Package Aspose.Words -Version 20.9.0

Chuyển đổi Word DOC hoặc DOCX sang HTML trong C#

Bạn có thể chuyển đổi tài liệu từ (DOC/DOCX) thành trang web HTML một cách hiệu quả theo chương trình trong các ứng dụng .NET bằng C# hoặc VB.NET. Bạn cần làm theo các bước dưới đây để chuyển đổi:

  1. Tải tài liệu từ DOCX đầu vào
  2. Khởi tạo phiên bản của HtmlSaveOptions
  3. Lưu tệp HTML đầu ra

Đoạn mã sau làm theo các bước này và cho biết cách chuyển đổi DOC/DOCX sang HTML bằng C# hoặc VB.NET:

// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "Test File.docx");

// Đặt HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Html;

// Lưu tài liệu vào HTML
doc.Save(dataDir + "Document.html", options);

Chuyển đổi Word DOC hoặc DOCX sang HTML với Thông tin khứ hồi trong C#

Một số thông tin bổ sung được lưu trong quá trình chuyển đổi Word sang HTML. Nó được gọi là thông tin khứ hồi và hữu ích cho các tình huống trong đó tệp HTML đã chuyển đổi được hiển thị lại dưới dạng tài liệu từ. Bạn có thể làm theo các bước sau để chuyển đổi DOC/DOCX sang HTML bằng C#:

  1. Tải tài liệu từ đầu vào
  2. Đặt ExportRoundtripInformation thành true
  3. Lưu tệp HTML đầu ra

Đoạn mã dưới đây giải thích cách chuyển đổi tệp Word DOC/DOCX sang HTML với thông tin khứ hồi bằng C# hoặc VB.NET:

// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "Test File (doc).docx");

HtmlSaveOptions options = new HtmlSaveOptions();

// Thuộc tính HtmlSaveOptions.ExportRoundtripInformation chỉ định
// Có ghi thông tin khứ hồi khi lưu vào HTML, MHTML hoặc EPUB hay không.
// Giá trị mặc định là đúng cho HTML và sai cho MHTML và EPUB.
options.ExportRoundtripInformation = true;
            
doc.Save(dataDir + "ExportRoundtripInformation_out.html", options);

Chuyển đổi Word DOC hoặc DOCX sang MHTML trong C#

Định dạng tệp MHTML đáng được đề cập khi bạn cần một tệp HTML duy nhất có hình ảnh và phông chữ được nhúng. Bạn có thể chuyển đổi tài liệu Word (DOC/DOCX) sang MHTML theo các bước dưới đây:

  1. Tải tệp DOC/DOCX nguồn
  2. Đặt SaveFormat thành MHTML

Đoạn mã dưới đây cho biết cách chuyển đổi tài liệu từ (DOC/DOCX) sang MHML bằng C# hoặc VB.NET:

// Tải tài liệu từ đĩa.
Document doc = new Document(dataDir + "Test File.docx");

// Đặt HtmlSaveOptions
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Mhtml;

// Lưu tài liệu vào MHTML
doc.Save(dataDir + "Document.mhtml", options);

Sự kết luận

Trong bài viết này, chúng tôi đã giới thiệu cách chuyển đổi tài liệu từ sang tệp HTML hoặc MHTML trong C# mà không cần cài đặt ứng dụng Microsoft Word. Ngoài ra, bạn đã học qua các ví dụ và các bước chi tiết để thực hiện lệnh gọi API để xuất tài liệu Word sang định dạng tệp yêu cầu của mình. Ngoài ra, bạn có thể xem Tài liệu tham khảo APITài liệu. Hơn nữa, bạn có thể viết thư lại cho chúng tôi và hỏi về bất cứ điều gì trên Diễn đàn hỗ trợ miễn phí.

Xem thêm