C#의 웹페이지에서 텍스트 추출 - 텍스트 추출 API

이 블로그 게시물은 Aspose.HTML for .NET이 제공하는 또 다른 중요한 기능을 보여줍니다. 다양한 기능을 갖춘 이 .NET 라이브러리를 사용하면 프로그래밍 방식으로 C# 웹 페이지에서 텍스트를 추출할 수 있습니다. 또한 이 텍스트 추출 API는 HTML 페이지에서 텍스트를 추출하기 위한 여러 클래스와 메서드를 공개했습니다. 따라서 귀하의 비즈니스에 경쟁력을 제공할 소프트웨어용 웹사이트 텍스트 추출기를 쉽게 개발할 수 있습니다. 그러므로 이 기사를 철저하게 읽고 어떤 섹션도 놓치지 마십시오. 또한 기능을 구현하려면 로컬 컴퓨터에 .NET을 설치했는지 확인하세요.

이 블로그 게시물에서는 다음 사항에 대해 설명합니다.

  1. 텍스트 추출 API 설치
  2. C# 웹페이지에서 텍스트 추출 - 코드 샘플
  3. 온라인 텍스트 추출기

텍스트 추출 API 설치

Aspose.HTML for .NET은 웹페이지에서 텍스트를 추출하는 완벽한 솔루션을 제공합니다. C# 프로그래머라면 이 텍스트 추출 API를 선택하여 웹페이지 텍스트 추출기를 개발하여 생산성을 높일 수 있습니다. 또한 웹 사이트 텍스트 추출 API가 필요한 여러 시나리오가 있으므로 Aspose.HTML for .NET이 기본 선택일 수 있습니다. 그럼에도 불구하고 DLL 파일을 다운로드하거나 NuGet 패키지 관리자에서 다음 명령을 실행하여 설치할 수 있습니다.

PM> Install-Package Aspose.Html
텍스트 추출 API

전체 설치 지침은 여기에서 확인할 수 있습니다.

C#의 웹 페이지에서 텍스트 추출 - 코드 샘플

Aspose.HTML for .NET 라이브러리를 사용하는 것은 복잡하지도 어렵지도 않습니다. 따라서 이 텍스트 추출 API는 최고의 엔지니어가 잘 설계했습니다. 이제 코드 조각 작성을 시작해 보겠습니다.

아래에 언급된 단계를 따를 수 있습니다.

  • 디렉터리 주소를 정의합니다.
  • 웹페이지를 로드하려면 HTMLDocument 클래스의 생성자를 초기화하세요.
  • GetElementsByTagName 메서드를 호출하여 모든 h2 제목을 수집합니다.
  • 검색된 모든 h2 제목을 반복합니다.
  • GetElementsByTagName 메서드를 사용하여 굵은 텍스트를 가져옵니다.
  • 웹페이지에서 검색된 모든 굵은 텍스트를 반복합니다.
  • WriteAllText 메서드를 호출하여 텍스트를 Txt 파일에 저장합니다.

다음 코드 조각은 프로그래밍 방식으로 C#의 웹 페이지에서 텍스트를 추출하는 방법을 보여줍니다.

namespace Aspose.Html
{
    class HTML
    {
        // C#의 웹페이지에서 텍스트 추출 - 텍스트 추출 API
        static void Main(string[] args)
        {
            // 디렉터리 주소 정의
            String dir = "/sample-files/";
            // 웹페이지를 로드하기 위해 HTMLDocument 클래스의 생성자를 초기화합니다.  
            using (var document = new HTMLDocument("https://blog.aspose.com/ko/html/generate-pdf-from-markdown-in-java-markdown-to-pdf/"))
            {

                // GetElementsByTagName 메서드를 호출하여 모든 h2 제목을 수집합니다. 
                var headings = document.GetElementsByTagName("h2");
                String data = "********h2 headings********" + System.Environment.NewLine;
                // 검색된 모든 h2 제목을 반복합니다.
               for (var i = 0; i < headings.Length; i++)
                {
                    data += headings[i].TextContent+System.Environment.NewLine;
                }
                // GetElementsByTagName 메서드를 사용하여 굵은 텍스트를 가져옵니다.
                var boldTags = document.GetElementsByTagName("strong");
                data += "********Bold Text********" + System.Environment.NewLine;
                // 웹페이지에서 검색된 모든 굵은 텍스트를 반복합니다.
               for (var i = 0; i < boldTags.Length; i++)
                {
                    data += boldTags[i].TextContent + System.Environment.NewLine;
                }
                // WriteAllText 메서드를 호출하여 텍스트를 txt 파일에 저장합니다.
                File.WriteAllText(Path.Combine(dir, "data.txt"), data);
            }

        }
    }
}

위 코드 샘플의 출력은 아래 이미지에서 볼 수 있습니다.

웹페이지에서 텍스트 추출

온라인 텍스트 추출기

온라인 웹페이지 텍스트 추출기는 프로그래밍 방식이 아닌 방식으로 데이터 추출 작업을 수행할 수 있는 도구입니다. 휴대폰의 웹 브라우저에서도 잘 작동하는 웹 기반 애플리케이션입니다. 무엇보다도 HTML 페이지에서 텍스트를 추출하는 데 무료이며 매우 빠릅니다. 앞으로는 이 온라인 텍스트 추출기에 추가 기능이 탑재될 예정입니다.

 온라인 텍스트 추출기

웹사이트 텍스트 추출기 - 무료 라이센스 받기

무료 임시 라이센스를 사용하여 평가 제한 없이 이 텍스트 추출API을 사용해 볼 수 있습니다.

결론

이번 블로그 포스팅은 여기서 마치겠습니다. C#으로 웹 페이지에서 프로그래밍 방식으로 텍스트를 추출하는 방법을 배웠기를 바랍니다. 또한 HTML 페이지에서 텍스트를 추출하는 실제 구현을 살펴보았습니다. 실제로 프로그래머는 신속한 애플리케이션 개발을 위해 항상 안정적이고 강력한 API를 선택하는 경향이 있으며 다행히도 Aspose.HTML for .NET이 거의 모든 작업을 수행합니다. 따라서 문서 및 API 참조를 방문하여 이 텍스트 추출 API에 대해 자세히 알아볼 수 있습니다.

마지막으로 aspose.com에서 새 기사를 작성하고 있습니다. 따라서 최신 업데이트를 계속 확인하시기 바랍니다.

도움을 받을 수 있습니다

귀하의 질문이나 질문에 대해 포럼에 알려주실 수 있습니다.

자주 묻는 질문 – FAQ

C#에서 웹 페이지의 데이터를 읽는 방법은 무엇입니까?

Aspose.HTML for .NET을 사용하여 웹페이지에서 프로그래밍 방식으로 데이터를 읽을 수 있습니다. 또한 이 링크를 방문하여 구현 방법을 확인하세요.

C#의 URL에서 데이터를 추출하는 방법은 무엇입니까?

GetElementsByTagName 메서드에 태그 이름을 전달하여 웹페이지를 로드하고 데이터를 검색하도록 HTMLDocument 클래스의 생성자를 초기화합니다. 또한 온라인 도구를 활용하여 온라인으로 데이터를 추출할 수 있습니다.

또한보십시오