แยกข้อความ HTML Java

HTML เป็นภาษามาร์กอัปสำหรับสร้างหรือออกแบบเอกสารที่จะแสดงในเบราว์เซอร์ มันสามารถรวมข้อความหรือข้อมูลภาพในหน้า ในบางกรณี คุณอาจต้องการแยก ข้อความ ออกจากเอกสาร HTML ตามกรณีการใช้งานดังกล่าว บทความนี้ครอบคลุมวิธีการแยกข้อความจาก HTML โดยทางโปรแกรมใน Java

HTML Text Extractor – การติดตั้ง Java API

Aspose.HTML for Java สามารถใช้ API เพื่อสร้าง แก้ไข หรือจัดการ HTML, MHTML และ รูปแบบไฟล์ อื่นๆ อีกมากมาย เพียงดาวน์โหลด JAR ของ API จากหน้า ดาวน์โหลด หรือติดตั้งจาก Aspose Repository โดยเพิ่มข้อกำหนดต่อไปนี้ใน pom.xml

พื้นที่เก็บข้อมูล:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

การพึ่งพา:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

แยกข้อความจาก HTML โดยทางโปรแกรมใน Java

ขั้นตอนต่อไปนี้แสดงวิธีการแยกข้อความจาก HTML โดยทางโปรแกรมใน Java:

  1. รับเอกสาร HTML ต้นทางโดยใช้คลาส HTMLDocument
  2. เริ่มต้นอินสแตนซ์ของคลาส TextSaveOptions
  3. แยกข้อความจากเอกสาร HTML

ข้อมูลโค้ดด้านล่างสาธิตวิธีการแยกข้อความจาก HTML โดยทางโปรแกรมใน Java:

// เตรียมโค้ด HTML และบันทึกลงในไฟล์
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// เริ่มต้นเอกสาร HTML จากไฟล์
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // เริ่มต้นวัตถุคลาส TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // แปลง HTML เป็นข้อความ
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

สำรวจ Aspose.HTML for Java

คุณสามารถดูส่วน เอกสารประกอบ เพื่อสำรวจคุณสมบัติอื่นๆ หลายอย่างที่ API รองรับ

บทสรุป

โดยสรุป คุณได้เรียนรู้วิธีการแยกข้อความจาก HTML โดยทางโปรแกรมใน Java สิ่งนี้สามารถช่วยคุณดึงข้อมูลจากหน้าเว็บ นอกจากนี้ ในกรณีที่คุณต้องการหารือเกี่ยวกับข้อกังวลหรือความต้องการของคุณ โปรดเขียนถึงเราที่ ฟอรัม

ดูสิ่งนี้ด้วย