HTML은 브라우저에 표시할 문서를 만들거나 디자인하는 마크업 언어입니다. 페이지에 텍스트 또는 시각적 정보를 포함할 수 있습니다. 경우에 따라 HTML 문서에서 텍스트를 추출할 수 있습니다. 이러한 사용 사례에 따라 이 기사에서는 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 다룹니다.
HTML 텍스트 추출기 - Java API 설치
Aspose.HTML for Java API는 HTML, MHTML 및 기타 여러 파일 형식을 생성, 편집 또는 조작하는 데 사용할 수 있습니다. 다운로드 페이지에서 JAR 파일을 다운로드하거나 pom.xml 파일에서 다음 사양을 사용하여 Aspose Repository에서 API를 활성화하여 API를 설정하기만 하면 됩니다.
저장소:
<repositories>
<repository>
<id>snapshots</id>
<name>repo</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
</repositories>
의존:
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-html</artifactId>
<version>22.7</version>
<classifier>jdk17</classifier>
</dependency>
</dependencies>
Java에서 프로그래밍 방식으로 HTML에서 텍스트 추출
다음 단계는 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 보여줍니다.
- HTMLDocument 클래스를 사용하여 소스 HTML 문서를 가져옵니다.
- TextSaveOptions 클래스의 인스턴스를 초기화합니다.
- HTML 문서에서 텍스트를 추출합니다.
아래 코드 스니펫은 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 보여줍니다.
// HTML 코드를 준비하고 파일에 저장
String code = "<span>Hello World!!</span>";
try (java.io.FileWriter fileWriter = new java.io.FileWriter("document.html")) {
fileWriter.write(code);
}
// 파일에서 HTML 문서 초기화
com.aspose.html.HTMLDocument document = new com.aspose.html.HTMLDocument("document.html");
try {
// TextSaveOptions 클래스 객체 초기화
com.aspose.html.saving.TextSaveOptions options = new com.aspose.html.saving.TextSaveOptions();
// HTML을 텍스트로 변환
com.aspose.html.converters.Converter.convertHTML(document, options, "output.txt");
} finally {
if (document != null) {
document.dispose();
}
}
Java용 Aspose.HTML 살펴보기
문서 섹션에서 API가 지원하는 다른 여러 기능을 살펴볼 수 있습니다.
결론
결론적으로 Java에서 프로그래밍 방식으로 HTML에서 텍스트를 추출하는 방법을 배웠습니다. 이것은 웹 페이지에서 정보를 검색하는 데 도움이 될 수 있습니다. 또한 우려 사항이나 요구 사항에 대해 논의해야 하는 경우 포럼에서 저희에게 편지를 보내주십시오.