รูปแบบไฟล์ Microsoft Word DOC/DOCX มีชื่อเสียงเนื่องจากโปรแกรมประมวลผลคำรองรับคุณสมบัติที่หลากหลายในการจัดระเบียบและอธิบายข้อมูล ในทำนองเดียวกัน รูปแบบไฟล์ HTML มีประโยชน์ในการแสดงข้อมูลในเว็บแอปพลิเคชัน ในบทความนี้ คุณจะได้เรียนรู้การแปลงไฟล์ Word (DOC/DOCX) เป็น HTML หรือ HTML5 โดยใช้ Java ต่อไปนี้เป็นกรณีการใช้งานที่คุณจะสำรวจที่นี่:

ตัวแปลง Java DOCX เป็น HTML หรือ HTML5 - การติดตั้ง

ก่อนอื่น คุณสามารถกำหนดค่า Aspose.Words for Java API ในแอปพลิเคชันของคุณได้อย่างง่ายดาย คุณสามารถดาวน์โหลดไฟล์ JAR ได้จาก Releases section ใหม่ ซึ่ง API ทั้งหมดจะได้รับการอัปเดตเกือบทุกเดือน ยิ่งไปกว่านั้น Java API ทั้งหมดที่นำเสนอโดย Aspose นั้นโฮสต์บนที่เก็บ Maven ในทำนองเดียวกัน Aspose.Words สำหรับการพึ่งพา Java สามารถกำหนดในโครงการ Maven ของคุณด้วยการกำหนดค่าต่อไปนี้:

พื้นที่เก็บข้อมูล:

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.com/repo/</url>
    </repository>
</repositories>

การพึ่งพา:

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>jdk17</classifier>
    </dependency>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-words</artifactId>
        <version>20.6</version>
        <classifier>javadoc</classifier>
    </dependency>
</dependencies>

ตอนนี้เราพร้อมสำหรับการแปลง DOCX เป็น HTML ในแอปพลิเคชัน Java แล้ว

แปลง Word (DOC/DOCX) เป็น HTML โดยใช้ Java

คุณสามารถแปลง Word เป็น HTML โดยทำตามขั้นตอนด้านล่าง:

  1. โหลดไฟล์ Word ต้นฉบับที่มีนามสกุล DOC หรือ DOCX
  2. บันทึกไฟล์เป็นเอาต์พุต HTML

ตัวอย่างโค้ดด้านล่างแสดงวิธีแปลง DOCX เป็น HTML โดยใช้ Java:

// โหลดเอกสารจากดิสก์
Document doc = new Document(dataDir + "TestFile.docx");
// บันทึกเอกสารเป็น HTML
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);

ป้อนตัวอย่างไฟล์ DOCX

Word เป็น HTML ใน Java

แสดงตัวอย่างไฟล์ HTML เอาต์พุต

DOCX เป็น HTML ใน Java

คุณจึงสังเกตเห็นความเที่ยงตรงสูงของการแสดงเอกสารด้วยภาพหน้าจอเหล่านี้ API สามารถแปลงข้อความ รูปภาพ ตาราง และอื่นๆ อีกมากมาย

แปลง DOCX เป็น HTML5 โดยใช้ Java

HTML5 เป็น HTML เวอร์ชันล่าสุด เราสังเกตเห็นคำขอซ้ำๆ สำหรับการสนับสนุน HTML5 ใน Aspose.Words API ดังนั้นจึงรองรับการแปลง DOCX เป็น HTML5 และคุณสามารถแปลงไฟล์โดยทำตามขั้นตอนต่อไปนี้:

  1. ขั้นแรก โหลดไฟล์ DOCX อินพุต
  2. ตั้งค่า HtmlSaveOptions ขณะตั้งค่า SaveFormat
  3. ตั้งค่าการแจงนับของ HtmlVersion.HTML5
  4. บันทึกไฟล์เอาต์พุต

ข้อมูลโค้ดด้านล่างแสดงวิธีแปลง DOCX เป็น HTML5 ใน Java:

// โหลดเอกสารจากดิสก์
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);        
doc.save(dataDir + "TestFile.html", opts);

แปลงไฟล์ Word ที่ป้องกันด้วยรหัสผ่านเป็น HTML โดยใช้ Java

ไฟล์ DOC หรือ DOCX บางครั้งมีการป้องกันด้วยรหัสผ่านหรือเข้ารหัสโดยใช้รหัสผ่าน คุณยังสามารถแปลงไฟล์ดังกล่าวเป็น HTML อย่างไรก็ตาม คุณจะต้องใช้รหัสผ่านขณะโหลดไฟล์คำ คุณสามารถทำตามขั้นตอนด้านล่างสำหรับการแปลง DOCX เป็น HTML:

  1. ประการแรก เริ่มต้นวัตถุของคลาส LoadOptions
  2. ตั้งรหัสผ่าน
  3. โหลดไฟล์ DOCX ที่เข้ารหัส
  4. แปลง DOCX เป็น HTML

ในทำนองเดียวกัน ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแปลงไฟล์ DOCX ที่ป้องกันด้วยรหัสผ่านเป็น HTML โดยใช้ Java:

LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// โหลดเอกสารจากดิสก์
Document doc = new Document(dataDir + "TestFile.docx" , options); 
//บันทึกเอกสารในรูปแบบ HTML
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);

แปลง Word เป็น MHTML โดยใช้ Java

ไฟล์ MHTML เป็นไฟล์เดี่ยวที่มีเนื้อหาและสื่อฝังอยู่ คุณสามารถแปลงไฟล์ word (DOC/DOCX) เป็น MHTML ได้โดยทำตามขั้นตอนต่อไปนี้:

  1. โหลดไฟล์ DOCX อินพุต
  2. บันทึกไฟล์ MHTML เอาต์พุตโดยใช้ SaveFormat.MHTML

ข้อมูลโค้ดด้านล่างอิงตามขั้นตอนนี้ ดังนั้นจึงแสดงวิธีการแปลง DOCX เป็น MHML ด้วย Java:

// โหลดเอกสารคำจากดิสก์
Document doc = new Document(dataDir + "TestFile.docx");
// บันทึกเอกสารลงใน MHTML
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);

บทสรุป

สรุปว่า เราได้เรียนรู้การแปลงเอกสาร Word โดยไม่ต้องใช้ Microsoft Word ตัวอย่างเช่น DOCX เป็น HTML, MHTML หรือ HTML5 ตามความต้องการของคุณ ในทำนองเดียวกัน เราได้สังเกตจากภาพหน้าจอว่าการแปลงนั้นดำเนินการด้วยความเที่ยงตรงสูงและความเข้ากันได้ระหว่างรูปแบบไฟล์ต่างๆ คุณจึงสามารถลองใช้ API ในสภาพแวดล้อม Java ของคุณเองได้ อย่างไรก็ตาม หากคุณประสบปัญหาขณะตั้งค่าหรือทดสอบ API คุณสามารถติดต่อเราได้ทาง ฟอรัมสนับสนุนฟรี!

ดูสิ่งนี้ด้วย