Преобразование Word DOC DOCX в HTML MHTML

В этой статье рассказывается, как преобразовать документы Word DOC DOCX в HTML или MHTML с помощью C# или VB.NET. Aspose.Words for .NET API можно использовать для выполнения такого преобразования довольно легко. Преобразование документов Microsoft Word является популярным вариантом использования, поэтому API поддерживает различные параметры. Вы можете взглянуть на заголовки, которые рассматриваются в этой статье:

C# Word to HTML или MHTML Converter API

Aspose.Words for .NET API специально разработан для работы с форматами файлов, поддерживаемыми Microsoft Word. Вы можете преобразовать файл DOCX или DOC в формат файла HTML или MHTML, загрузив API из раздела Новые выпуски или установив его из NuGet с помощью следующей команды:

Install-Package Aspose.Words -Version 20.9.0

Преобразование Word DOC или DOCX в HTML на C#

Вы можете эффективно преобразовать текстовый документ (DOC/DOCX) в веб-страницу HTML программно в приложениях .NET, используя C# или VB.NET. Для преобразования вам необходимо выполнить следующие шаги:

  1. Загрузить входной документ Word DOCX
  2. Инициализировать экземпляр HtmlSaveOptions
  3. Сохраните выходной HTML-файл

Следующий фрагмент кода следует этим шагам и показывает, как преобразовать DOC/DOCX в HTML с помощью C# или VB.NET:

// Загрузите документ с диска.
Document doc = new Document(dataDir + "Test File.docx");

// Установить хтмлсавеоптионс
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Html;

// Сохраните документ в HTML
doc.Save(dataDir + "Document.html", options);

Преобразование Word DOC или DOCX в HTML с двусторонней информацией на C#

Некоторая дополнительная информация сохраняется во время преобразования Word в HTML. Эта информация называется двусторонней информацией и полезна для сценариев, в которых преобразованный HTML-файл снова отображается как текстовый документ. Вы можете выполнить следующие действия, чтобы преобразовать DOC/DOCX в HTML с помощью C#:

  1. Загрузите входной документ Word
  2. Установите для параметра ExportRoundtripInformation значение true.
  3. Сохраните выходной HTML-файл

Фрагмент кода ниже объясняет, как преобразовать файл Word DOC/DOCX в HTML с двусторонней информацией с помощью C# или VB.NET:

// Загрузите документ с диска.
Document doc = new Document(dataDir + "Test File (doc).docx");

HtmlSaveOptions options = new HtmlSaveOptions();

// Свойство HtmlSaveOptions.ExportRoundtripInformation указывает
// Записывать ли информацию о пути туда и обратно при сохранении в HTML, MHTML или EPUB.
// Значение по умолчанию — true для HTML и false для MHTML и EPUB.
options.ExportRoundtripInformation = true;
            
doc.Save(dataDir + "ExportRoundtripInformation_out.html", options);

Преобразование Word DOC или DOCX в MHTML на C#

Формат файла MHTML стоит упомянуть, когда вам нужен один файл HTML со встроенными изображениями и шрифтами. Вы можете преобразовать документ Word (DOC/DOCX) в MHTML, выполнив следующие действия:

  1. Загрузить исходный файл DOC/DOCX
  2. Установите SaveFormat в MHTML

Фрагмент кода ниже показывает, как преобразовать текстовый документ (DOC/DOCX) в MHML с помощью C# или VB.NET:

// Загрузите документ с диска.
Document doc = new Document(dataDir + "Test File.docx");

// Установить хтмлсавеоптионс
HtmlSaveOptions options = new HtmlSaveOptions();
options.SaveFormat = SaveFormat.Mhtml;

// Сохраните документ в MHTML
doc.Save(dataDir + "Document.mhtml", options);

Вывод

В этой статье мы рассмотрели, как преобразовать текстовые документы в файлы HTML или MHTML на C# без необходимости установки приложения Microsoft Word. Кроме того, на примерах и подробных шагах вы узнали, как выполнять вызовы API для экспорта документов Word в требуемые форматы файлов. Кроме того, вы можете ознакомиться с справочными материалами по API и документацией. Кроме того, вы можете написать нам и задать любой вопрос на Форум бесплатной поддержки.

Смотрите также