Microsoft Word-filformat DOC/DOCX är kända eftersom ordbehandlaren stöder en mängd olika funktioner för att organisera och förklara information. Att konvertera Word-dokument till HTML är dock ofta nödvändigt när du vill visa dina dokument på en webbplats eller webbapplikation. I den här bloggen går vi igenom processen att konvertera Word-dokument till HTML i Java.

Java-bibliotek för att konvertera Word DOC till HTML

Aspose.Words for Java är ett moget och funktionsrikt bibliotek för att arbeta med Word-dokument. Det låter dig läsa, skapa, ändra och konvertera Word-dokument till olika format, inklusive HTML. Du kan enkelt konfigurera Aspose.Words för Java API i dina applikationer. Du kan ladda ner JAR-filen från nya Releases section där alla API:er uppdateras nästan varje månad.

Aspose.Words för Java-beroende kan definieras i ditt Maven-projekt med följande konfigurationer:

Förvar:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Beroende:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>23.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>23.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Nu är vi redo för konvertering av DOCX till HTML i en Java-applikation.

Konvertera Word (DOC/DOCX) till HTML med Java

Du kan konvertera ett Word-dokument till HTML genom att följa stegen nedan:

  1. Ladda käll Word-fil med DOC- eller DOCX-tillägg.
  2. Spara filen som utdata-HTML.

Kodexemplet nedan visar hur du konverterar DOCX till HTML med Java:

// Ladda dokumentet från disken.
Document doc = new Document(dataDir + "TestFile.docx");
// Spara dokumentet i HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Förhandsgranskning av DOCX-fil

Word till HTML i Java

Förhandsgranskning av HTML-fil

DOCX till HTML i Java

Så du kan lägga märke till den höga återgivningen av dokument med dessa skärmdumpar. API:et kan konvertera text, bilder, tabeller och mycket mer.

Konvertera Word DOCX till HTML5 i Java

HTML5 är den senaste versionen av HTML. Vi har noterat upprepade förfrågningar om att stödja HTML5 i Aspose.Words API. Därför stöds konvertering av DOCX till HTML5 och du kan konvertera filer genom att följa stegen:

  1. Först laddar du in DOCX-filen
  2. Ställ in HtmlSaveOptions när du ställer in SaveFormat
  3. Ställ in uppräkningsvärdet för HtmlVersion.HTML5
  4. Spara utdatafil

Kodavsnittet nedan visar hur man konverterar DOCX till HTML5 i Java:

// Ladda dokumentet från disken.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Konvertera lösenordsskyddad Word-fil till HTML

DOC- eller DOCX-filer är ibland lösenordsskyddade eller krypterade med ett lösenord. Du kan också konvertera sådana filer till HTML. Du behöver dock lösenordet när du laddar Word-filen. Du kan följa stegen nedan för konvertering av DOCX till HTML:

  1. Initiera först ett objekt av klassen LoadOptions
  2. Ställ in lösenordet
  3. Ladda den krypterade DOCX-filen
  4. Konvertera DOCX till HTML

På samma sätt visar följande kodexempel hur man konverterar lösenordsskyddad DOCX-fil till HTML med Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Ladda dokumentet från disken.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Spara dokumentet i HTML-format.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Konvertera DOC till MHTML i Java

MHTML-filer är enstaka filer som innehåller inbäddat innehåll och media. Du kan konvertera word-filer (DOC/DOCX) till MHTML med följande steg:

  1. Ladda indata DOCX-fil
  2. Spara utdata MHTML-fil med SaveFormat.MHTML

Kodavsnittet nedan är baserat på dessa steg. Därför visar den hur man konverterar DOCX till MHML med Java:

// Ladda word-dokument från disken.
Document doc = new Document(dataDir + "TestFile.docx");
// Spara dokumentet i MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Slutsats

Att konvertera Word-dokument till HTML är en vanlig uppgift för många Java-utvecklare. Aspose.Words för Java förenklar denna process genom att tillhandahålla en heltäckande och pålitlig lösning. Genom att följa stegen och kodexemplen i den här bloggen kan du enkelt konvertera dina Word-dokument till HTML och enkelt integrera dem i dina Java-projekt.

Om du stöter på några problem när du installerar eller testar API:t kan du kontakta oss via Free Support Forums!

Se även