Formaty plików Microsoft Word DOC/DOCX są znane, ponieważ edytor tekstu obsługuje różne funkcje porządkowania i wyjaśniania informacji. Podobnie format pliku HTML jest pomocny przy wyświetlaniu informacji w aplikacjach internetowych. W tym artykule nauczysz się konwersji plików Worda (DOC/DOCX) do HTML lub HTML5 przy użyciu Javy. Poniżej znajdują się przypadki użycia, które będziesz tutaj badać:

Konwerter Java DOCX na HTML lub HTML5 - instalacja

Po pierwsze, możesz łatwo skonfigurować Aspose.Words for Java API w swoich aplikacjach. Możesz pobrać plik JAR z nowej sekcji Releases, gdzie wszystkie interfejsy API są aktualizowane prawie co miesiąc. Co więcej, wszystkie API Java oferowane przez Aspose są hostowane w repozytorium Maven. Podobnie zależność Aspose.Words for Java można zdefiniować w projekcie Maven za pomocą następujących konfiguracji:

Magazyn:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

Zależność:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

Teraz wszyscy jesteśmy gotowi do konwersji DOCX na HTML w aplikacji Java.

Konwertuj Word (DOC/DOCX) na HTML za pomocą Java

Możesz przekonwertować program Word na format HTML, wykonując poniższe czynności:

  1. Załaduj źródłowy plik Word z rozszerzeniem DOC lub DOCX
  2. Zapisz plik jako wyjściowy HTML

Poniższy przykładowy kod pokazuje, jak przekonwertować DOCX na HTML przy użyciu Javy:

// Załaduj dokument z dysku.
Document doc = new Document(dataDir + "TestFile.docx");
// Zapisz dokument w formacie HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

Wprowadź podgląd pliku DOCX

Word do HTML w Javie

Wyjściowy podgląd pliku HTML

DOCX do HTML w Javie

Możesz więc zauważyć wysoką wierność renderowania dokumentów na tych zrzutach ekranu. Interfejs API może konwertować tekst, obrazy, tabele i wiele więcej.

Konwertuj DOCX na HTML5 za pomocą Javy

HTML5 to najnowsza wersja HTML. Zauważyliśmy powtarzające się prośby o wsparcie HTML5 w API Aspose.Words. Dlatego konwersja DOCX na HTML5 jest obsługiwana i możesz konwertować pliki, wykonując następujące czynności:

  1. Najpierw załaduj wejściowy plik DOCX
  2. Ustaw HtmlSaveOptions podczas ustawiania SaveFormat
  3. Ustaw wartość wyliczenia HtmlVersion.HTML5
  4. Zapisz plik wyjściowy

Poniższy fragment kodu pokazuje, jak przekonwertować DOCX na HTML5 w Javie:

// Załaduj dokument z dysku.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Konwertuj chroniony hasłem plik Word do formatu HTML przy użyciu języka Java

Pliki DOC lub DOCX są czasami chronione hasłem lub szyfrowane przy użyciu hasła. Możesz także konwertować takie pliki do formatu HTML. Będziesz jednak potrzebować hasła podczas ładowania pliku tekstowego. Możesz wykonać poniższe kroki, aby przekonwertować DOCX na HTML:

  1. Najpierw zainicjuj obiekt klasy LoadOptions
  2. Ustaw hasło
  3. Załaduj zaszyfrowany plik DOCX
  4. Konwertuj DOCX na HTML

Poniższy przykładowy kod pokazuje również, jak przekonwertować plik DOCX chroniony hasłem do formatu HTML przy użyciu języka Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// Załaduj dokument z dysku.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//Zapisz dokument w formacie HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Konwertuj Word na MHTML przy użyciu Javy

Pliki MHTML to pojedyncze pliki zawierające osadzone treści i multimedia. Możesz konwertować pliki tekstowe (DOC/DOCX) na MHTML, wykonując następujące czynności:

  1. Załaduj wejściowy plik DOCX
  2. Zapisz wyjściowy plik MHTML przy użyciu SaveFormat.MHTML

Poniższy fragment kodu jest oparty na tych krokach. Dlatego pokazuje, jak przekonwertować DOCX na MHML za pomocą Javy:

// Załaduj dokument Word z dysku.
Document doc = new Document(dataDir + "TestFile.docx");
// Zapisz dokument w formacie MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

Wniosek

Podsumowując, nauczyliśmy się konwertować dokumenty Word bez potrzeby używania programu Microsoft Word. Na przykład DOCX do HTML, MHTML lub HTML5 zgodnie z Twoimi wymaganiami. Podobnie zaobserwowaliśmy na zrzutach ekranu, że konwersja jest wykonywana z wysoką wiernością i kompatybilnością między formatami plików. Możesz więc wypróbować interfejs API we własnym środowisku Java. Jeśli jednak napotkasz jakiekolwiek problemy podczas konfigurowania lub testowania interfejsu API, możesz skontaktować się z nami za pośrednictwem Bezpłatnych forów pomocy technicznej!

Zobacz też