Формати файлів Microsoft Word DOC/DOCX відомі тим, що текстовий процесор підтримує низку функцій для впорядкування та пояснення інформації. Так само формат файлу HTML корисний для відображення інформації у веб-додатках. У цій статті ви вивчатимете конвертацію файлів Word (DOC/DOCX) у HTML або HTML5 за допомогою Java. Нижче наведено випадки використання, які ви тут вивчатимете:

Конвертер Java DOCX в HTML або HTML5 - встановлення

По-перше, ви можете легко налаштувати Aspose.Words for Java API у своїх програмах. Ви можете завантажити файл JAR із нового розділу випусків, де всі API оновлюються майже щомісяця. Крім того, усі API Java, які пропонує Aspose, розміщені в репозиторії Maven. Подібним чином залежність Aspose.Words for Java можна визначити у вашому проекті Maven із такими конфігураціями:

Репозиторій:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Залежність:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Тепер ми готові для перетворення DOCX на HTML у програмі Java.

Перетворення Word (DOC/DOCX) на HTML за допомогою Java

Ви можете конвертувати Word у HTML, виконавши наведені нижче дії.

  1. Завантажте вихідний файл Word із розширенням DOC або DOCX
  2. Збережіть файл як вихідний HTML

Зразок коду нижче показує, як конвертувати DOCX у HTML за допомогою Java:

// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Збережіть документ у HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Попередній перегляд вхідного файлу DOCX

Word в HTML на Java

Попередній перегляд вихідного файлу HTML

DOCX в HTML на Java

Тож ви можете помітити високу точність візуалізації документів на цих скріншотах. API здатний конвертувати текст, зображення, таблиці та багато іншого.

Перетворіть DOCX на HTML5 за допомогою Java

HTML5 — остання версія HTML. Ми помітили неодноразові запити на підтримку HTML5 в API Aspose.Words. Тому підтримується перетворення DOCX у HTML5, і ви можете конвертувати файли, виконавши такі дії:

  1. Спочатку завантажте вхідний файл DOCX
  2. Встановіть HtmlSaveOptions під час налаштування SaveFormat
  3. Установіть значення перерахування HtmlVersion.HTML5
  4. Зберегти вихідний файл

Наведений нижче фрагмент коду показує, як конвертувати DOCX у HTML5 у Java:

// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Перетворіть захищений паролем файл Word у HTML за допомогою Java

Файли DOC або DOCX іноді захищені паролем або зашифровані за допомогою пароля. Ви також можете конвертувати такі файли в HTML. Однак вам знадобиться пароль під час завантаження файлу word. Для перетворення DOCX у HTML виконайте наведені нижче дії.

  1. По-перше, ініціалізуйте об’єкт класу LoadOptions
  2. Встановіть пароль
  3. Завантажте зашифрований файл DOCX
  4. Перетворення DOCX на HTML

Подібним чином наведений нижче зразок коду показує, як перетворити захищений паролем файл DOCX на HTML за допомогою Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Завантажте документ з диска.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Збережіть документ у форматі HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Перетворення Word на MHTML за допомогою Java

Файли MHTML — це окремі файли, які містять вбудований вміст і медіа. Ви можете конвертувати файли Word (DOC/DOCX) у MHTML, виконавши такі дії:

  1. Завантажити вхідний файл DOCX
  2. Збережіть вихідний файл MHTML за допомогою SaveFormat.MHTML

Наведений нижче фрагмент коду базується на цих кроках. Тому показано, як конвертувати DOCX у MHML за допомогою Java:

// Завантажити документ Word з диска.
Document doc = new Document(dataDir + "TestFile.docx");
// Збережіть документ у MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Висновок

На завершення ми навчилися конвертувати документи Word без використання Microsoft Word. Наприклад, DOCX у HTML, MHTML або HTML5 відповідно до ваших вимог. Подібним чином ми помітили на знімках екрана, що перетворення виконується з високою точністю та сумісністю між форматами файлів. Тож ви можете спробувати API у своєму власному середовищі Java. Однак якщо у вас виникнуть проблеми під час налаштування або тестування API, ви можете зв’язатися з нами через безкоштовні форуми підтримки!

Дивись також