HTML متن جاوا را استخراج کنید

HTML یک زبان نشانه گذاری برای ایجاد یا طراحی اسناد برای نمایش در مرورگرها است. می تواند شامل اطلاعات متنی یا تصویری در صفحه باشد. در برخی موارد، ممکن است بخواهید Text را از اسناد HTML استخراج کنید. مطابق با چنین موارد استفاده، این مقاله نحوه استخراج متن از HTML به صورت برنامه‌نویسی در جاوا را پوشش می‌دهد.

استخراج متن HTML – نصب API جاوا

Aspose.HTML for Java API را می توان برای ایجاد، ویرایش، یا دستکاری HTML، MHTML، و بسیاری [فرمت های فایل] دیگر استفاده کرد. به سادگی JAR API را از صفحه Downloads دانلود کنید یا با افزودن مشخصات زیر در pom.xml آن را از Aspose Repository نصب کنید.

مخزن:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

وابستگی:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

استخراج متن از HTML به صورت برنامه نویسی در جاوا

مراحل زیر نحوه استخراج متن از HTML به صورت برنامه نویسی در جاوا را نشان می دهد:

  1. سند HTML منبع را با استفاده از کلاس HTMLDocument دریافت کنید.
  2. نمونه ای از کلاس TextSaveOptions را راه اندازی کنید.
  3. متن را از سند HTML استخراج کنید.

قطعه کد زیر نحوه استخراج متن از HTML به صورت برنامه نویسی در جاوا را نشان می دهد:

// یک کد HTML آماده کنید و آن را در فایل ذخیره کنید
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// یک سند HTML را از فایل راه اندازی کنید
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // شی کلاس TextSaveOptions را راه اندازی کنید
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // HTML را به متن تبدیل کنید
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Aspose.HTML را برای جاوا کاوش کنید

برای بررسی چندین ویژگی دیگر که توسط API پشتیبانی می‌شوند، می‌توانید به بخش اسناد نگاهی بیندازید.

نتیجه

در پایان، نحوه استخراج متن از HTML به صورت برنامه نویسی در جاوا را آموخته اید. این می تواند به شما در بازیابی اطلاعات از صفحات وب کمک کند. علاوه بر این، در صورت نیاز به بحث در مورد هر یک از نگرانی‌ها یا الزامات خود، در [تالار گفتمان8 برای ما بنویسید.

همچنین ببینید