Формати файлів Microsoft Word DOC/DOCX відомі тим, що текстовий процесор підтримує низку функцій для впорядкування та пояснення інформації. Так само формат файлу HTML корисний для відображення інформації у веб-додатках. У цій статті ви вивчатимете конвертацію файлів Word (DOC/DOCX) у HTML або HTML5 за допомогою Java. Нижче наведено випадки використання, які ви тут вивчатимете:
- Перетворення Word (DOC/DOCX) на HTML за допомогою Java
- Перетворіть DOCX на HTML5 за допомогою Java
- Перетворіть захищений паролем файл Word у HTML за допомогою Java
- Перетворення Word на MHTML за допомогою Java
Конвертер Java DOCX в HTML або HTML5 - встановлення
По-перше, ви можете легко налаштувати Aspose.Words for Java API у своїх програмах. Ви можете завантажити файл JAR із нового розділу випусків, де всі API оновлюються майже щомісяця. Крім того, усі API Java, які пропонує Aspose, розміщені в репозиторії Maven. Подібним чином залежність Aspose.Words for Java можна визначити у вашому проекті Maven із такими конфігураціями:
Репозиторій:
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
</repositories>
Залежність:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>jdk17</classifier>
</dependency>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>javadoc</classifier>
</dependency>
</dependencies>
Тепер ми готові для перетворення DOCX на HTML у програмі Java.
Перетворення Word (DOC/DOCX) на HTML за допомогою Java
Ви можете конвертувати Word у HTML, виконавши наведені нижче дії.
- Завантажте вихідний файл Word із розширенням DOC або DOCX
- Збережіть файл як вихідний HTML
Зразок коду нижче показує, як конвертувати DOCX у HTML за допомогою Java:
// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Збережіть документ у HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);
Попередній перегляд вхідного файлу DOCX
![Word в HTML на Java](images/Word-to-HTML-Java.png#center)
Попередній перегляд вихідного файлу HTML
![DOCX в HTML на Java](images/DOCX-to-HTML-Java.png#center)
Тож ви можете помітити високу точність візуалізації документів на цих скріншотах. API здатний конвертувати текст, зображення, таблиці та багато іншого.
Перетворіть DOCX на HTML5 за допомогою Java
HTML5 — остання версія HTML. Ми помітили неодноразові запити на підтримку HTML5 в API Aspose.Words. Тому підтримується перетворення DOCX у HTML5, і ви можете конвертувати файли, виконавши такі дії:
- Спочатку завантажте вхідний файл DOCX
- Встановіть HtmlSaveOptions під час налаштування SaveFormat
- Установіть значення перерахування HtmlVersion.HTML5
- Зберегти вихідний файл
Наведений нижче фрагмент коду показує, як конвертувати DOCX у HTML5 у Java:
// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);
doc.save(dataDir + "TestFile.html", opts);
Перетворіть захищений паролем файл Word у HTML за допомогою Java
Файли DOC або DOCX іноді захищені паролем або зашифровані за допомогою пароля. Ви також можете конвертувати такі файли в HTML. Однак вам знадобиться пароль під час завантаження файлу word. Для перетворення DOCX у HTML виконайте наведені нижче дії.
- По-перше, ініціалізуйте об’єкт класу LoadOptions
- Встановіть пароль
- Завантажте зашифрований файл DOCX
- Перетворення DOCX на HTML
Подібним чином наведений нижче зразок коду показує, як перетворити захищений паролем файл DOCX на HTML за допомогою Java:
LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx" , options);
//Збережіть документ у форматі HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);
Перетворення Word на MHTML за допомогою Java
Файли MHTML — це окремі файли, які містять вбудований вміст і медіа. Ви можете конвертувати файли Word (DOC/DOCX) у MHTML, виконавши такі дії:
- Завантажити вхідний файл DOCX
- Збережіть вихідний файл MHTML за допомогою SaveFormat.MHTML
Наведений нижче фрагмент коду базується на цих кроках. Тому показано, як конвертувати DOCX у MHML за допомогою Java:
// Завантажити документ Word з диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Збережіть документ у MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);
Висновок
На завершення ми навчилися конвертувати документи Word без використання Microsoft Word. Наприклад, DOCX у HTML, MHTML або HTML5 відповідно до ваших вимог. Подібним чином ми помітили на знімках екрана, що перетворення виконується з високою точністю та сумісністю між форматами файлів. Тож ви можете спробувати API у своєму власному середовищі Java. Однак якщо у вас виникнуть проблеми під час налаштування або тестування API, ви можете зв’язатися з нами через безкоштовні форуми підтримки!