Чтобы встроить содержимое документов Word в ваши приложения, вам может потребоваться выполнить преобразование. Чаще всего в таких случаях используются преобразования Word в HTML или Word в изображение. В соответствии с этим в этой статье рассказывается, как конвертировать файлы Word DOCX или DOC в HTML с помощью Java. Также мы обсудим, как хранить файлы ресурсов в отдельной папке.
- Java API для преобразования Word в HTML
- Преобразование документа Word в HTML
- Укажите папку ресурсов в преобразовании Word в HTML
Java API для преобразования Word в HTML
Для преобразования DOCX/DOC в HTML мы будем использовать Aspose.Words for Java. Это мощный API для реализации функций обработки текста из приложений Java. Кроме того, API обеспечивает высокоточное преобразование документов Word в HTML и другие форматы. Вы можете либо скачать API, либо установить его с Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>21.10</version>
<type>pom</type>
</dependency>
Преобразование документа Word в HTML на Java
Чтобы преобразовать документ Word в HTML, вам нужно только загрузить документ и сохранить его как файл HTML. Ниже приведены шаги для преобразования файла Word DOCX в HTML с использованием Java.
- Загрузите документ Word, используя класс Document.
- Преобразуйте документ Word в HTML, используя метод Document.save(string, SaveFormat).
В следующем примере кода показано, как преобразовать документ Word в HTML с помощью Java.
// Загрузите документ с диска
Document doc = new Document("document.docx");
// Сохраните документ как HTML
doc.save("Document_out.html", SaveFormat.HTML);
Укажите папку ресурсов в преобразовании Word в HTML
Вы также можете настроить API для сохранения файлов ресурсов в отдельной папке. Более того, вы можете хранить шрифты и изображения отдельно в разных папках. Ниже приведены шаги для указания папки ресурсов.
- Загрузите документ Word, используя класс Document.
- Создайте объект класса HtmlSaveOptions.
- Задайте папку ресурсов с помощью метода HtmlSaveOptions.setResourceFolder.
- Преобразуйте документ Word в HTML, используя метод Document.save(string, HtmlSaveOptions).
В следующем примере кода файлы ресурсов хранятся в отдельной папке при преобразовании Word в HTML.
// Загрузить документ
Document doc = new Document("Document.docx");
// Укажите папку ресурсов
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setCssStyleSheetType(CssStyleSheetType.EXTERNAL);
saveOptions.setExportFontResources(true);
saveOptions.setResourceFolder("\\Resources");
// Преобразование документа Word в HTML
doc.save("ExportResourcesUsingHtmlSaveOptions_out.html", saveOptions);
Вы можете читать дальше о работе с папками ресурсов при преобразовании Word в HTML.
Получите бесплатную лицензию API
Вы можете использовать Aspose.Words for Java без ограничений по ознакомительной версии, получив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как программно преобразовать файлы Word DOCX или DOC в HTML с помощью Java. В дополнение к этому вы увидели, как сохранять файлы ресурсов отдельно при преобразовании Word в HTML. Кроме того, вы можете больше узнать об Aspose.Words для Java в документации. Кроме того, вы можете поделиться своими вопросами с нами на нашем форуме.