Os formatos de arquivo DOC/DOCX do Microsoft Word são famosos porque o processador de texto suporta uma variedade de recursos para organizar e explicar informações. Da mesma forma, o formato de arquivo HTML é útil para mostrar informações em aplicativos da web. Neste artigo, você aprenderá a conversão de arquivos do Word (DOC/DOCX) para HTML ou HTML5 usando Java. A seguir estão os casos de uso que você explorará aqui:

Conversor Java DOCX para HTML ou HTML5 - Instalação

Primeiramente, você pode configurar facilmente o Aspose.Words para API Java em seus aplicativos. Você pode baixar o arquivo JAR da nova seção Releases, onde todas as APIs são atualizadas quase todos os meses. Além disso, todas as APIs Java, oferecidas pela Aspose, são hospedadas no repositório Maven. Da mesma forma, a dependência do Aspose.Words para Java pode ser definida em seu projeto Maven com as seguintes configurações:

Repositório:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Dependência:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Agora estamos prontos para a conversão de DOCX para HTML em um aplicativo Java.

Converter Word (DOC/DOCX) para HTML usando Java

Você pode converter Word para HTML seguindo as etapas abaixo:

  1. Carregar arquivo do Word de origem com extensão DOC ou DOCX
  2. Salve o arquivo como HTML de saída

A amostra de código abaixo mostra como converter DOCX para HTML usando Java:

// Carregue o documento do disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Salve o documento em HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Insira a visualização do arquivo DOCX

Word para HTML em Java

Visualização do arquivo HTML de saída

DOCX para HTML em Java

Assim, você pode notar a alta fidelidade da renderização de documentos com essas capturas de tela. A API é capaz de converter texto, imagens, tabelas e muito mais.

Converter DOCX para HTML5 usando Java

HTML5 é a versão mais recente do HTML. Observamos solicitações repetidas de suporte a HTML5 na API Aspose.Words. Portanto, a conversão de DOCX para HTML5 é suportada e você pode converter arquivos seguindo as etapas:

  1. Em primeiro lugar, carregue o arquivo DOCX de entrada
  2. Defina HtmlSaveOptions ao definir SaveFormat
  3. Definir valor de enumeração de HtmlVersion.HTML5
  4. Salvar arquivo de saída

O trecho de código abaixo mostra como converter DOCX para HTML5 em Java:

// Carregue o documento do disco.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Converter arquivo do Word protegido por senha para HTML usando Java

Os arquivos DOC ou DOCX às vezes são protegidos por senha ou criptografados usando uma senha. Você também pode converter esses arquivos para HTML. No entanto, você precisará da senha ao carregar o arquivo de palavras. Você pode seguir as etapas abaixo para conversão de DOCX para HTML:

  1. Primeiramente, inicialize um objeto da classe LoadOptions
  2. Defina a senha
  3. Carregue o arquivo DOCX criptografado
  4. Converter DOCX para HTML

Da mesma forma, o exemplo de código a seguir mostra como converter arquivo DOCX protegido por senha em HTML usando Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Carregue o documento do disco.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Salve o documento em formato HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Converter Word para MHTML usando Java

Os arquivos MHTML são arquivos únicos que contêm conteúdo e mídia incorporados. Você pode converter arquivos de palavras (DOC/DOCX) para MHTML com as seguintes etapas:

  1. Carregar arquivo DOCX de entrada
  2. Salve o arquivo MHTML de saída usando SaveFormat.MHTML

O trecho de código abaixo é baseado nestas etapas. Portanto, mostra como converter DOCX para MHML com Java:

// Carregue o documento do Word do disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Salve o documento em MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Conclusão

Concluindo, aprendemos a conversão de documentos do Word sem precisar do Microsoft Word. Por exemplo, DOCX para HTML, MHTML ou HTML5 conforme suas necessidades. Da mesma forma, observamos com as capturas de tela que a conversão é realizada com alta fidelidade e compatibilidade entre os formatos de arquivo. Assim, você pode experimentar a API em seu próprio ambiente Java. No entanto, se você enfrentar algum problema ao configurar ou testar a API, poderá entrar em contato conosco através dos Fóruns de suporte gratuitos!

Veja também