Para incorporar o conteúdo de documentos do Word em seus aplicativos, talvez seja necessário realizar a conversão. As conversões mais aceitas nesses casos são Word para HTML ou Word para imagem. De acordo com isso, este artigo aborda como converter arquivos Word DOCX ou DOC para HTML usando Java. Além disso, discutiremos como manter os arquivos de recursos em uma pasta separada.
- API Java para conversão de Word para HTML
- Converter um documento do Word para HTML
- Especificar pasta de recursos na conversão de Word para HTML
API Java para conversão de Word para HTML
Para conversão de DOCX/DOC para HTML, usaremos Aspose.Words for Java. É uma API poderosa para implementar recursos de processamento de texto de dentro dos aplicativos Java. Além disso, a API fornece conversão de alta fidelidade de documentos do Word para HTML e outros formatos. Você pode baixar a API ou instalá-la do Maven.
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>21.10</version>
<type>pom</type>
</dependency>
Converter um documento do Word para HTML em Java
Para converter um documento do Word para HTML, você só precisa carregar o documento e salvá-lo como um arquivo HTML. A seguir estão as etapas para converter um arquivo Word DOCX em HTML usando Java.
- Carregue o documento do Word usando a classe Document.
- Converta o documento do Word para HTML usando o método Document.save(string, SaveFormat).
O exemplo de código a seguir mostra como converter um documento do Word em HTML usando Java.
// Carregar o documento do disco
Document doc = new Document("document.docx");
// Salve o documento como HTML
doc.save("Document_out.html", SaveFormat.HTML);
Especificar pasta de recursos na conversão de Word para HTML
Você também pode configurar a API para salvar os arquivos de recursos em uma pasta separada. Além disso, você pode manter fontes e imagens separadamente em pastas diferentes. A seguir estão as etapas para especificar a pasta de recursos.
- Carregue o documento do Word usando a classe Document.
- Crie um objeto da classe HtmlSaveOptions.
- Defina a pasta de recursos usando o método HtmlSaveOptions.setResourceFolder.
- Converta o documento do Word para HTML usando o método Document.save(string, HtmlSaveOptions).
O exemplo de código a seguir mantém os arquivos de recursos em uma pasta separada na conversão de Word para HTML.
// Carregar documento
Document doc = new Document("Document.docx");
// Especificar pasta de recursos
HtmlSaveOptions saveOptions = new HtmlSaveOptions();
saveOptions.setCssStyleSheetType(CssStyleSheetType.EXTERNAL);
saveOptions.setExportFontResources(true);
saveOptions.setResourceFolder("\\Resources");
// Converter documento do Word para HTML
doc.save("ExportResourcesUsingHtmlSaveOptions_out.html", saveOptions);
Você pode ler mais sobre como trabalhar com pastas de recursos na conversão de Word para HTML.
Obtenha uma licença de API gratuita
Você pode usar o Aspose.Words para Java sem limitações de avaliação obtendo uma licença temporária gratuita.
Conclusão
Neste artigo, você aprendeu como converter arquivos DOCX ou DOC do Word para HTML programaticamente usando Java. Além disso, você viu como armazenar arquivos de recursos separadamente na conversão de Word para HTML. Além disso, você pode ler mais sobre o Aspose.Words for Java usando a documentação. Além disso, você pode compartilhar suas dúvidas conosco em nosso fórum.