Форматы файлов Microsoft Word DOC/DOCX известны тем, что текстовый процессор поддерживает множество функций для организации и объяснения информации. Точно так же формат файла HTML полезен для отображения информации в веб-приложениях. В этой статье вы изучите преобразование файлов Word (DOC/DOCX) в HTML или HTML5 с использованием Java. Ниже приведены варианты использования, которые вы будете изучать здесь:

Конвертер Java DOCX в HTML или HTML5 - Установка

Во-первых, вы можете легко настроить Aspose.Words for Java API в своих приложениях. Вы можете загрузить файл JAR из нового раздела релизов, где все API обновляются почти каждый месяц. Более того, все API-интерфейсы Java, предлагаемые Aspose, размещаются в репозитории Maven. Аналогично, зависимость Aspose.Words for Java может быть определена в вашем проекте Maven со следующими конфигурациями:

Репозиторий:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Зависимость:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Теперь все готово для преобразования DOCX в HTML в приложении Java.

Преобразование Word (DOC/DOCX) в HTML с помощью Java

Вы можете преобразовать Word в HTML, выполнив следующие действия:

  1. Загрузите исходный файл Word с расширением DOC или DOCX.
  2. Сохраните файл как выходной HTML

В приведенном ниже примере кода показано, как преобразовать DOCX в HTML с помощью Java:

// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Сохраните документ в формате HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Входной файл DOCX Предварительный просмотр

Word в HTML на Java

Выходной файл HTML Предварительный просмотр

DOCX в HTML на Java

Таким образом, вы можете заметить высокую точность рендеринга документов на этих скриншотах. API может преобразовывать текст, изображения, таблицы и многое другое.

Преобразование DOCX в HTML5 с помощью Java

HTML5 — это последняя версия HTML. Мы отметили неоднократные запросы на поддержку HTML5 в Aspose.Words API. Поэтому поддерживается преобразование DOCX в HTML5, и вы можете конвертировать файлы, выполнив следующие действия:

  1. Во-первых, загрузите входной файл DOCX
  2. Установите HtmlSaveOptions при настройке SaveFormat
  3. Установите значение перечисления HtmlVersion.HTML\5
  4. Сохранить выходной файл

Фрагмент кода ниже показывает, как преобразовать DOCX в HTML5 в Java:

// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Преобразование файла Word, защищенного паролем, в HTML с помощью Java

Файлы DOC или DOCX иногда защищены паролем или зашифрованы с помощью пароля. Вы также можете конвертировать такие файлы в HTML. Однако вам понадобится пароль при загрузке файла Word. Вы можете выполнить следующие шаги для преобразования DOCX в HTML:

  1. Во-первых, инициализируйте объект класса LoadOptions
  2. Установите пароль
  3. Загрузите зашифрованный файл DOCX
  4. Конвертировать DOCX в HTML

Аналогичным образом, в следующем примере кода показано, как преобразовать файл DOCX, защищенный паролем, в HTML с помощью Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Сохраните документ в формате HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Преобразование Word в MHTML с помощью Java

Файлы MHTML — это отдельные файлы, содержащие встроенное содержимое и мультимедиа. Вы можете конвертировать текстовые файлы (DOC/DOCX) в MHTML, выполнив следующие действия:

  1. Загрузить входной файл DOCX
  2. Сохраните выходной файл MHTML с помощью SaveFormat.MHTML.

Фрагмент кода ниже основан на этих шагах. Поэтому он показывает, как преобразовать DOCX в MHML с помощью Java:

// Загрузите документ Word с диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Сохраните документ в формате MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Вывод

Наконец, мы научились преобразовывать текстовые документы без использования Microsoft Word. Например, DOCX в HTML, MHTML или HTML5 в соответствии с вашими требованиями. Кроме того, на скриншотах мы заметили, что преобразование выполняется с высокой точностью и совместимостью между форматами файлов. Таким образом, вы можете попробовать API в своей собственной среде Java. Однако, если у вас возникнут проблемы при настройке или тестировании API, вы можете связаться с нами через бесплатные форумы поддержки!

Смотрите также