استخراج نص HTML جافا

HTML هي لغة ترميز لإنشاء أو تصميم المستندات لعرضها في المستعرضات. يمكن أن تتضمن معلومات نصية أو مرئية في الصفحة. في بعض الحالات ، قد ترغب في استخراج نص من مستندات HTML. وفقًا لحالات الاستخدام هذه ، تتناول هذه المقالة كيفية استخراج النص من HTML برمجيًا في Java.

مستخرج نص HTML - تثبيت Java API

Aspose.HTML for Java يمكن استخدام API لإنشاء وتحرير ومعالجة HTML و MHTML والعديد من تنسيقات الملفات. ما عليك سوى تنزيل JAR الخاص بواجهة برمجة التطبيقات من صفحة التنزيلات أو تثبيته من Aspose Repository عن طريق إضافة المواصفات التالية في pom.xml.

مخزن:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

الاعتماد:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

استخراج النص من HTML برمجيًا في Java

توضح الخطوات التالية كيفية استخراج النص من HTML برمجيًا في Java:

  1. احصل على مستند HTML المصدر باستخدام فئة HTMLDocument.
  2. تهيئة مثيل لفئة TextSaveOptions.
  3. استخرج النص من مستند HTML.

يوضح مقتطف الشفرة أدناه كيفية استخراج نص من HTML برمجيًا في Java:

// قم بإعداد كود HTML وحفظه في الملف
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// قم بتهيئة مستند HTML من الملف
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // تهيئة كائن فئة TextSaveOptions
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // تحويل HTML إلى نص
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

اكتشف Aspose.HTML لجافا

يمكنك إلقاء نظرة على قسم التوثيق لاستكشاف العديد من الميزات الأخرى التي تدعمها واجهة برمجة التطبيقات.

استنتاج

في الختام ، تعلمت كيفية استخراج النص من HTML برمجيًا في Java. يمكن أن يساعدك هذا في استرداد المعلومات من صفحات الويب. علاوة على ذلك ، إذا كنت بحاجة إلى مناقشة أي من مخاوفك أو متطلباتك ، فاكتب إلينا على المنتدى.

أنظر أيضا