I formati di file Microsoft Word DOC/DOCX sono famosi perché l’elaboratore di testi supporta una varietà di funzioni per organizzare e spiegare le informazioni. Allo stesso modo, il formato file HTML è utile per mostrare le informazioni nelle applicazioni web. In questo articolo imparerai la conversione di file Word (DOC/DOCX) in HTML o HTML5 utilizzando Java. Di seguito sono riportati i casi d’uso che esplorerai qui:

Convertitore Java DOCX in HTML o HTML5 - Installazione

Per prima cosa, puoi configurare facilmente Aspose.Words per l’API Java nelle tue applicazioni. Puoi scaricare il file JAR dalla nuova sezione Rilasci in cui tutte le API vengono aggiornate quasi ogni mese. Inoltre, tutte le API Java, offerte da Aspose, sono ospitate sul repository Maven. Allo stesso modo, la dipendenza di Aspose.Words per Java può essere definita nel tuo progetto Maven con le seguenti configurazioni:

Archivio:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Dipendenza:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Ora siamo pronti per la conversione da DOCX a HTML in un’applicazione Java.

Converti Word (DOC/DOCX) in HTML utilizzando Java

Puoi convertire Word in HTML seguendo i passaggi seguenti:

  1. Carica il file Word di origine con estensione DOC o DOCX
  2. Salva il file come output HTML

L’esempio di codice seguente mostra come convertire DOCX in HTML utilizzando Java:

// Carica il documento dal disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Salva il documento in HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Immettere l’anteprima del file DOCX

Word in HTML in Java

Anteprima del file HTML di output

DOCX in HTML in Java

Quindi puoi notare l’alta fedeltà del rendering dei documenti con questi screenshot. L’API è in grado di convertire testo, immagini, tabelle e molto altro.

Converti DOCX in HTML5 usando Java

HTML5 è l’ultima versione di HTML. Abbiamo notato richieste ripetute per il supporto di HTML5 nell’API Aspose.Words. Pertanto, la conversione da DOCX a HTML5 è supportata ed è possibile convertire i file seguendo i passaggi seguenti:

  1. Innanzitutto, carica il file DOCX di input
  2. Impostare HtmlSaveOptions durante l’impostazione di SaveFormat
  3. Imposta il valore di enumerazione di HtmlVersion.HTML5
  4. Salva file di output

Il frammento di codice seguente mostra come convertire DOCX in HTML5 in Java:

// Carica il documento dal disco.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Converti file Word protetto da password in HTML utilizzando Java

I file DOC o DOCX a volte sono protetti da password o crittografati utilizzando una password. Puoi anche convertire tali file in HTML. Tuttavia, avrai bisogno della password durante il caricamento del file word. Puoi seguire i passaggi seguenti per la conversione da DOCX a HTML:

  1. Innanzitutto, inizializza un oggetto della classe LoadOptions
  2. Imposta la password
  3. Carica il file DOCX crittografato
  4. Converti DOCX in HTML

Allo stesso modo, l’esempio di codice seguente mostra come convertire file DOCX protetti da password in HTML utilizzando Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Carica il documento dal disco.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Salva il documento in formato HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Converti Word in MHTML usando Java

I file MHTML sono singoli file che contengono contenuti e media incorporati. Puoi convertire file di parole (DOC/DOCX) in MHTML con i seguenti passaggi:

  1. Carica il file DOCX di input
  2. Salva il file MHTML di output utilizzando SaveFormat.MHTML

Lo snippet di codice riportato di seguito si basa su questi passaggi. Pertanto, mostra come convertire DOCX in MHML con Java:

// Carica il documento di Word dal disco.
Document doc = new Document(dataDir + "TestFile.docx");
// Salva il documento in MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Conclusione

Infine, abbiamo imparato la conversione di documenti Word senza bisogno di Microsoft Word. Ad esempio, da DOCX a HTML, MHTML o HTML5 secondo i tuoi requisiti. Allo stesso modo, abbiamo osservato con gli screenshot che la conversione viene eseguita con alta fedeltà e compatibilità tra i formati di file. Quindi puoi provare l’API nel tuo ambiente Java. Tuttavia, se dovessi riscontrare problemi durante la configurazione o il test dell’API, puoi contattarci tramite Forum di supporto gratuito!

Guarda anche