Слово в HTML Java

Чтобы встроить содержимое документов Word в ваши приложения, вам может потребоваться выполнить преобразование. Чаще всего в таких случаях используются преобразования Word в HTML или Word в изображение. В соответствии с этим в этой статье рассказывается, как конвертировать файлы Word DOCX или DOC в HTML с помощью Java. Также мы обсудим, как хранить файлы ресурсов в отдельной папке.

Java API для преобразования Word в HTML

Для преобразования DOCX/DOC в HTML мы будем использовать Aspose.Words for Java. Это мощный API для реализации функций обработки текста из приложений Java. Кроме того, API обеспечивает высокоточное преобразование документов Word в HTML и другие форматы. Вы можете либо скачать API, либо установить его с Maven.

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-words</artifactId>
    <version>21.10</version>
    <type>pom</type>
</dependency>

Преобразование документа Word в HTML на Java

Чтобы преобразовать документ Word в HTML, вам нужно только загрузить документ и сохранить его как файл HTML. Ниже приведены шаги для преобразования файла Word DOCX в HTML с использованием Java.

В следующем примере кода показано, как преобразовать документ Word в HTML с помощью Java.

// Загрузите документ с диска
Document doc = new Document("document.docx");

// Сохраните документ как HTML
doc.save("Document_out.html", SaveFormat.HTML);

Укажите папку ресурсов в преобразовании Word в HTML

Вы также можете настроить API для сохранения файлов ресурсов в отдельной папке. Более того, вы можете хранить шрифты и изображения отдельно в разных папках. Ниже приведены шаги для указания папки ресурсов.

В следующем примере кода файлы ресурсов хранятся в отдельной папке при преобразовании Word в HTML.

// Загрузить документ
Document doc = new Document("Document.docx");

// Укажите папку ресурсов
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setCssStyleSheetType(CssStyleSheetType.EXTERNAL);
saveOptions.setExportFontResources(true);
saveOptions.setResourceFolder("\\Resources");

// Преобразование документа Word в HTML
doc.save("ExportResourcesUsingHtmlSaveOptions_out.html", saveOptions);

Вы можете читать дальше о работе с папками ресурсов при преобразовании Word в HTML.

Получите бесплатную лицензию API

Вы можете использовать Aspose.Words for Java без ограничений по ознакомительной версии, получив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как программно преобразовать файлы Word DOCX или DOC в HTML с помощью Java. В дополнение к этому вы увидели, как сохранять файлы ресурсов отдельно при преобразовании Word в HTML. Кроме того, вы можете больше узнать об Aspose.Words для Java в документации. Кроме того, вы можете поделиться своими вопросами с нами на нашем форуме.

Смотрите также