HTML 텍스트 자바 추출

HTML은 브라우저에 표시할 문서를 만들거나 디자인하는 마크업 언어입니다. 페이지에 텍스트 또는 시각적 정보를 포함할 수 있습니다. 경우에 따라 HTML 문서에서 텍스트를 추출할 수 있습니다. 이러한 사용 사례에 따라 이 기사에서는 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 다룹니다.

HTML 텍스트 추출기 - Java API 설치

Aspose.HTML for Java API는 HTML, MHTML 및 기타 여러 파일 형식을 생성, 편집 또는 조작하는 데 사용할 수 있습니다. 다운로드 페이지에서 JAR 파일을 다운로드하거나 pom.xml 파일에서 다음 사양을 사용하여 Aspose Repository에서 API를 활성화하여 API를 설정하기만 하면 됩니다.

저장소:

 <repositories>
     <repository>
         <id>snapshots</id>
         <name>repo</name>
         <url>http://repository.aspose.com/repo/</url>
     </repository>
</repositories>

의존:

 <dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-html</artifactId>
        <version>22.7</version>
        <classifier>jdk17</classifier>
    </dependency>
</dependencies>

Java에서 프로그래밍 방식으로 HTML에서 텍스트 추출

다음 단계는 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 보여줍니다.

  1. HTMLDocument 클래스를 사용하여 소스 HTML 문서를 가져옵니다.
  2. TextSaveOptions 클래스의 인스턴스를 초기화합니다.
  3. HTML 문서에서 텍스트를 추출합니다.

아래 코드 스니펫은 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 보여줍니다.

// HTML 코드를 준비하고 파일에 저장
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
    fileWriter.write(code);
}

// 파일에서 HTML 문서 초기화
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
    // TextSaveOptions 클래스 객체 초기화
    com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
    
    // HTML을 텍스트로 변환
    com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
    if (document != null) {
        document.dispose();
    }
}

Java용 Aspose.HTML 살펴보기

문서 섹션에서 API가 지원하는 다른 여러 기능을 살펴볼 수 있습니다.

결론

결론적으로 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 배웠습니다. 이것은 웹 페이지에서 정보를 검색하는 데 도움이 될 수 있습니다. 또한 우려 사항이나 요구 사항에 대해 논의해야 하는 경우 포럼에서 저희에게 편지를 보내주십시오.

또한보십시오