Форматы файлов Microsoft Word DOC/DOCX известны тем, что текстовый процессор поддерживает множество функций для организации и объяснения информации. Точно так же формат файла HTML полезен для отображения информации в веб-приложениях. В этой статье вы изучите преобразование файлов Word (DOC/DOCX) в HTML или HTML5 с использованием Java. Ниже приведены варианты использования, которые вы будете изучать здесь:
- Преобразование Word (DOC/DOCX) в HTML с помощью Java
- Преобразование DOCX в HTML5 с помощью Java
- Преобразование файла Word, защищенного паролем, в HTML с помощью Java
- Преобразование Word в MHTML с помощью Java
Конвертер Java DOCX в HTML или HTML5 - Установка
Во-первых, вы можете легко настроить Aspose.Words for Java API в своих приложениях. Вы можете загрузить файл JAR из нового раздела релизов, где все API обновляются почти каждый месяц. Более того, все API-интерфейсы Java, предлагаемые Aspose, размещаются в репозитории Maven. Аналогично, зависимость Aspose.Words for Java может быть определена в вашем проекте Maven со следующими конфигурациями:
Репозиторий:
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
</repositories>
Зависимость:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>jdk17</classifier>
</dependency>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>javadoc</classifier>
</dependency>
</dependencies>
Теперь все готово для преобразования DOCX в HTML в приложении Java.
Преобразование Word (DOC/DOCX) в HTML с помощью Java
Вы можете преобразовать Word в HTML, выполнив следующие действия:
- Загрузите исходный файл Word с расширением DOC или DOCX.
- Сохраните файл как выходной HTML
В приведенном ниже примере кода показано, как преобразовать DOCX в HTML с помощью Java:
// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Сохраните документ в формате HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);
Входной файл DOCX Предварительный просмотр
Выходной файл HTML Предварительный просмотр
Таким образом, вы можете заметить высокую точность рендеринга документов на этих скриншотах. API может преобразовывать текст, изображения, таблицы и многое другое.
Преобразование DOCX в HTML5 с помощью Java
HTML5 — это последняя версия HTML. Мы отметили неоднократные запросы на поддержку HTML5 в Aspose.Words API. Поэтому поддерживается преобразование DOCX в HTML5, и вы можете конвертировать файлы, выполнив следующие действия:
- Во-первых, загрузите входной файл DOCX
- Установите HtmlSaveOptions при настройке SaveFormat
- Установите значение перечисления HtmlVersion.HTML\5
- Сохранить выходной файл
Фрагмент кода ниже показывает, как преобразовать DOCX в HTML5 в Java:
// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);
doc.save(dataDir + "TestFile.html", opts);
Преобразование файла Word, защищенного паролем, в HTML с помощью Java
Файлы DOC или DOCX иногда защищены паролем или зашифрованы с помощью пароля. Вы также можете конвертировать такие файлы в HTML. Однако вам понадобится пароль при загрузке файла Word. Вы можете выполнить следующие шаги для преобразования DOCX в HTML:
- Во-первых, инициализируйте объект класса LoadOptions
- Установите пароль
- Загрузите зашифрованный файл DOCX
- Конвертировать DOCX в HTML
Аналогичным образом, в следующем примере кода показано, как преобразовать файл DOCX, защищенный паролем, в HTML с помощью Java:
LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Загрузите документ с диска.
Document doc = new Document(dataDir + "TestFile.docx" , options);
//Сохраните документ в формате HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);
Преобразование Word в MHTML с помощью Java
Файлы MHTML — это отдельные файлы, содержащие встроенное содержимое и мультимедиа. Вы можете конвертировать текстовые файлы (DOC/DOCX) в MHTML, выполнив следующие действия:
- Загрузить входной файл DOCX
- Сохраните выходной файл MHTML с помощью SaveFormat.MHTML.
Фрагмент кода ниже основан на этих шагах. Поэтому он показывает, как преобразовать DOCX в MHML с помощью Java:
// Загрузите документ Word с диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Сохраните документ в формате MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);
Вывод
Наконец, мы научились преобразовывать текстовые документы без использования Microsoft Word. Например, DOCX в HTML, MHTML или HTML5 в соответствии с вашими требованиями. Кроме того, на скриншотах мы заметили, что преобразование выполняется с высокой точностью и совместимостью между форматами файлов. Таким образом, вы можете попробовать API в своей собственной среде Java. Однако, если у вас возникнут проблемы при настройке или тестировании API, вы можете связаться с нами через бесплатные форумы поддержки!