פורמטים של קבצי Microsoft Word DOC/DOCX מפורסמים מכיוון שמעבד התמלילים תומך במגוון תכונות לארגון והסבר מידע. באופן דומה, פורמט קובץ HTML מועיל להצגת מידע ביישומי אינטרנט. במאמר זה תלמדו קבצי Word (DOC/DOCX) להמרת HTML או HTML5 באמצעות Java. להלן מקרי השימוש שתחקור כאן:
- המרת Word (DOC/DOCX) ל-HTML באמצעות Java
- המר DOCX ל-HTML5 באמצעות Java
- המר קובץ Word מוגן בסיסמה ל-HTML באמצעות Java
- המרת Word ל-MHTML באמצעות Java
ממיר Java DOCX ל-HTML או HTML5 - התקנה
דבר ראשון, אתה יכול להגדיר בקלות את Aspose.Words עבור Java API ביישומים שלך. אתה יכול להוריד את קובץ ה-JAR מ[קטע מהדורות] החדש 1 שבו כל ממשקי ה-API מתעדכנים כמעט מדי חודש. יתר על כן, כל ממשקי ה-API של Java, המוצעים על ידי Aspose, מתארחים על גבי מאגר Maven. כמו כן, ניתן להגדיר תלות Aspose.Words עבור Java בפרויקט Maven שלך עם התצורות הבאות:
מאגר:
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
</repositories>
תלות:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>jdk17</classifier>
</dependency>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words</artifactId>
<version>20.6</version>
<classifier>javadoc</classifier>
</dependency>
</dependencies>
כעת כולנו מוכנים להמרת DOCX ל-HTML באפליקציית Java.
המרת Word (DOC/DOCX) ל-HTML באמצעות Java
אתה יכול להמיר Word ל-HTML על ידי ביצוע השלבים הבאים:
- טען קובץ וורד מקור עם סיומת DOC או DOCX
- שמור את הקובץ כפלט HTML
דוגמת הקוד שלהלן מראה כיצד להמיר DOCX ל-HTML באמצעות Java:
// טען את המסמך מהדיסק.
Document doc = new Document(dataDir + "TestFile.docx");
// שמור את המסמך ב-HTML.
doc.save(dataDir + "Document_out.html", SaveFormat.HTML);
קלט תצוגה מקדימה של קובץ DOCX
תצוגה מקדימה של קובץ HTML פלט
אז אתה יכול להבחין בנאמנות הגבוהה של עיבוד מסמכים עם צילומי מסך אלה. ה-API מסוגל להמיר טקסט, תמונות, טבלאות ועוד הרבה יותר.
המר DOCX ל-HTML5 באמצעות Java
HTML5 היא הגרסה העדכנית ביותר של HTML. ציינו בקשות חוזרות ונשנות לתמיכה ב-HTML5 ב-Aspose.Words API. לכן, המרת DOCX ל-HTML5 נתמכת וניתן להמיר קבצים על ידי השלבים הבאים:
- ראשית, טען קובץ DOCX קלט
- הגדר HtmlSaveOptions בעת הגדרת SaveFormat
- הגדר ערך ספירה של HtmlVersion.HTML5
- שמור קובץ פלט
קטע הקוד שלהלן מראה כיצד להמיר DOCX ל-HTML5 ב-Java:
// טען את המסמך מהדיסק.
Document doc = new Document(dataDir + "TestFile.docx");
HtmlSaveOptions opts = new HtmlSaveOptions(SaveFormat.HTML);
opts.setHtmlVersion(HtmlVersion.HTML_5);
opts.setExportImagesAsBase64(true);
opts.setExportPageMargins(true);
doc.save(dataDir + "TestFile.html", opts);
המר קובץ Word מוגן בסיסמה ל-HTML באמצעות Java
קובצי DOC או DOCX לפעמים מוגנים בסיסמה או מוצפנים באמצעות סיסמה. אתה יכול גם להמיר קבצים כאלה ל-HTML. עם זאת, תזדקק לסיסמה בעת טעינת קובץ ה-word. אתה יכול לבצע את השלבים הבאים להמרת DOCX ל-HTML:
- ראשית, אתחול אובייקט של המחלקה LoadOptions
- הגדר את הסיסמה
- טען את קובץ ה-DOCX המוצפן
- המרת DOCX ל-HTML
באופן דומה, דוגמת הקוד הבאה מראה כיצד להמיר קובץ DOCX מוגן בסיסמה ל-HTML באמצעות Java:
LoadOptions options = new LoadOptions();
options.setPassword("aspose");
// טען את המסמך מהדיסק.
Document doc = new Document(dataDir + "TestFile.docx" , options);
//שמור את המסמך בפורמט HTML.
doc.save(dataDir + "DocxToHTML.html",SaveFormat.HTML);
המרת Word ל-MHTML באמצעות Java
קובצי MHTML הם קבצים בודדים המכילים תוכן ומדיה מוטבעים. אתה יכול להמיר קבצי word (DOC/DOCX) ל-MHTML עם השלבים הבאים:
- טען קובץ DOCX קלט
- שמור קובץ MHTML פלט באמצעות SaveFormat.MHTML
קטע הקוד שלהלן מבוסס על שלבים אלה. לכן, הוא מראה כיצד להמיר DOCX ל-MHML עם Java:
// טען מסמך וורד מהדיסק.
Document doc = new Document(dataDir + "TestFile.docx");
// שמור את המסמך ב-MHTML.
doc.save(dataDir + "Document.mhtml", SaveFormat.MHTML);
סיכום
לסיכום, למדנו המרה של מסמכי Word ללא צורך ב-Microsoft Word. לדוגמה, DOCX ל-HTML, MHTML או HTML5 לפי הדרישות שלך. כמו כן, ראינו בצילומי מסך שההמרה מתבצעת בנאמנות גבוהה ובתאימות בין פורמטי הקבצים. אז אתה יכול לנסות את ה-API בסביבת Java משלך. עם זאת, אם אתה נתקל בבעיה כלשהי בזמן הגדרה או בדיקה של ה-API, תוכל ליצור איתנו קשר באמצעות פורומי תמיכה בחינם!