חלץ טקסט HTML Java

HTML היא שפת סימון ליצירה או עיצוב מסמכים שיוצגו בדפדפנים. זה יכול לכלול טקסט או מידע חזותי בדף. במקרים מסוימים, ייתכן שתרצה לחלץ טקסט ממסמכי HTML. בהתאם למקרי שימוש כאלה, מאמר זה מכסה כיצד לחלץ טקסט מ-HTML באופן פרוגרמטי ב-Java.

HTML Text Extractor - התקנת Java API

ניתן להשתמש ב-API Aspose.HTML for Java ליצירה, עריכה או מניפולציה של HTML, MHTML ועוד רבים אחרים פורמטים של קבצים. כל שעליך לעשות הוא להוריד את ה-JAR של ה-API מדף הורדות או להתקין אותו מAspose Repository על ידי הוספת המפרטים הבאים ב-pom.xml.

מאגר:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

תלות:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

חלץ טקסט מ-HTML באופן פרוגרמטי ב-Java

השלבים הבאים מראים כיצד לחלץ טקסט מ-HTML באופן פרוגרמטי ב-Java:

  1. קבל את מסמך HTML המקור באמצעות המחלקה HTMLDocument.
  2. אתחול מופע של מחלקה TextSaveOptions.
  3. חלץ את הטקסט ממסמך ה-HTML.

קטע הקוד שלהלן מדגים כיצד לחלץ טקסט מ-HTML באופן פרוגרמטי ב-Java:

// הכן קוד HTML ושמור אותו בקובץ
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// אתחול מסמך HTML מהקובץ
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // אתחול אובייקט המחלקה TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // המרת HTML לטקסט
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

חקור את Aspose.HTML עבור Java

אתה יכול להסתכל בסעיף תיעוד כדי לחקור כמה תכונות אחרות הנתמכות על ידי ה-API.

סיכום

לסיכום, למדת כיצד לחלץ טקסט מ-HTML באופן פרוגרמטי ב-Java. זה יכול לעזור לך לאחזר מידע מדפי האינטרנט. יתרה מזאת, במקרה שאתה צריך לדון בכל החששות או הדרישות שלך, כתוב לנו בפורום.

ראה גם