Microsoft Word 파일 형식 DOC/DOCX는 워드 프로세서가 정보를 구성하고 설명하는 다양한 기능을 지원하기 때문에 유명합니다. 마찬가지로 HTML 파일 형식은 웹 응용 프로그램에서 정보를 표시하는 데 유용합니다. 이 기사에서는 Java를 사용하여 Word 파일(DOC/DOCX)을 HTML 또는 HTML5로 변환하는 방법을 배웁니다. 다음은 여기에서 탐색할 사용 사례입니다.

Java DOCX를 HTML 또는 HTML5로 변환기 - 설치

먼저, 애플리케이션에서 Java API용 Aspose.Words를 쉽게 구성할 수 있습니다. 거의 매달 모든 API가 업데이트되는 새로운 릴리스 섹션에서 JAR 파일을 다운로드할 수 있습니다. 또한 Aspose에서 제공하는 모든 Java API는 Maven 저장소를 통해 호스팅됩니다. 마찬가지로 Aspose.Words for Java 종속성은 Maven 프로젝트에서 다음 구성으로 정의할 수 있습니다.

저장소:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

의존:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

이제 Java 애플리케이션에서 DOCX를 HTML로 변환하기 위한 모든 설정이 완료되었습니다.

Java를 사용하여 Word(DOC/DOCX)를 HTML로 변환

다음 단계에 따라 Word를 HTML로 변환할 수 있습니다.

  1. DOC 또는 DOCX 확장자를 가진 소스 Word 파일 로드
  2. 파일을 출력 HTML로 저장

아래 코드 샘플은 Java를 사용하여 DOCX를 HTML로 변환하는 방법을 보여줍니다.

// 디스크에서 문서를 로드합니다.
Document doc = new Document(dataDir + "TestFile.docx");
// 문서를 HTML로 저장합니다.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

DOCX 파일 미리보기 입력

Java에서 Word를 HTML로

출력 HTML 파일 미리보기

Java에서 DOCX를 HTML로

따라서 이 스크린샷을 통해 문서 렌더링의 높은 충실도를 확인할 수 있습니다. API는 텍스트, 이미지, 표 등을 변환할 수 있습니다.

Java를 사용하여 DOCX를 HTML5로 변환

HTML5는 HTML의 최신 버전입니다. Aspose.Words API에서 HTML5 지원에 대한 반복적인 요청을 확인했습니다. 따라서 DOCX에서 HTML5로의 변환이 지원되며 다음 단계에 따라 파일을 변환할 수 있습니다.

  1. 먼저 입력 DOCX 파일을 로드합니다.
  2. SaveFormat을 설정하는 동안 HtmlSaveOptions 설정
  3. HtmlVersion.HTML\5의 열거 값 설정
  4. 출력 파일 저장

아래 코드 스니펫은 Java에서 DOCX를 HTML5로 변환하는 방법을 보여줍니다.

// 디스크에서 문서를 로드합니다.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

Java를 사용하여 암호로 보호된 Word 파일을 HTML로 변환

DOC 또는 DOCX 파일은 때때로 암호로 보호되거나 암호를 사용하여 암호화됩니다. 이러한 파일을 HTML로 변환할 수도 있습니다. 그러나 워드 파일을 로드하는 동안 암호가 필요합니다. DOCX에서 HTML로의 변환을 위해 아래 단계를 따를 수 있습니다:

  1. 먼저 LoadOptions 클래스의 개체를 초기화합니다.
  2. 비밀번호 설정
  3. 암호화된 DOCX 파일 로드
  4. DOCX를 HTML로 변환

마찬가지로 다음 코드 샘플은 Java를 사용하여 비밀번호로 보호된 DOCX 파일을 HTML로 변환하는 방법을 보여줍니다.

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// 디스크에서 문서를 로드합니다.
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//문서를 HTML 형식으로 저장합니다.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

Java를 사용하여 Word를 MHTML로 변환

MHTML 파일은 콘텐츠와 미디어가 포함된 단일 파일입니다. 다음 단계에 따라 워드 파일(DOC/DOCX)을 MHTML로 변환할 수 있습니다.

  1. 입력 DOCX 파일 로드
  2. SaveFormat.MHTML을 사용하여 출력 MHTML 파일 저장

아래 코드 스니펫은 이 단계를 기반으로 합니다. 따라서 Java를 사용하여 DOCX를 MHML로 변환하는 방법을 보여줍니다.

// 디스크에서 워드 문서를 로드합니다.
Document doc = new Document(dataDir + "TestFile.docx");
// 문서를 MHTML에 저장합니다.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

결론

결론적으로 마이크로소프트 워드 없이 워드 문서를 변환하는 방법을 배웠습니다. 예를 들어 요구 사항에 따라 DOCX를 HTML, MHTML 또는 HTML5로 변환합니다. 마찬가지로 우리는 변환이 파일 형식 간의 높은 충실도와 호환성으로 수행되는 것을 스크린샷에서 관찰했습니다. 따라서 자신의 Java 환경에서 API를 사용해 볼 수 있습니다. 그러나 API를 설정하거나 테스트하는 동안 문제가 발생하면 무료 지원 포럼을 통해 저희에게 연락할 수 있습니다!

또한보십시오