스캔한 PDF를 텍스트로 csharp

스캔한 PDF 파일은 기본적으로 스캐너나 카메라로 캡처한 하나 이상의 평면 이미지입니다. 이러한 파일에서 정보를 복사, 붙여넣기 또는 처리할 수 없습니다. 이 문서에서는 스캔한 PDF를 C#에서 텍스트로 변환하는 방법을 설명합니다.

스캔한 PDF를 텍스트로 변환 – C# API 설치

Aspose.OCR for .NET API는 OCR 작업을 수행하는 데 사용됩니다. 이미지 또는 스캔한 PDF 문서에서 광학적으로 문자를 인식할 수 있습니다. New Releases 섹션에서 DLL 파일을 다운로드하거나 다음 NuGet 설치 명령을 사용하여 API를 구성하십시오.

PM> Install-Package Aspose.OCR

C#에서 스캔한 PDF를 텍스트 문자열로 변환

OCR 작업을 수행하여 스캔한 PDF 파일을 텍스트 문자열로 변환할 수 있습니다. 스캔한 PDF 문서에서 텍스트를 인쇄하려면 아래 단계를 따라야 합니다.

  1. 스캔한 PDF 파일을 인식하기 위한 설정을 지정합니다.
  2. AsposeOcr 클래스 인스턴스를 초기화합니다.
  3. RecognitionResult 클래스 개체를 초기화합니다.
  4. 스캔한 PDF에서 텍스트를 인식하여 인쇄합니다.

다음 코드 스니펫은 C#에서 스캔한 PDF의 텍스트를 인식하는 방법을 보여줍니다.

// AsposeOcr 클래스 인스턴스 초기화
AsposeOcr api = new AsposeOcr();

// 스캔한 PDF 파일을 인식하기 위한 설정 지정
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// RecognitionResult 클래스 개체 초기화
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// 스캔한 PDF에서 텍스트 인식 후 출력
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

C#에서 프로그래밍 방식으로 스캔한 PDF를 TXT 파일로 변환

다음 단계에 따라 스캔한 PDF 파일을 TXT 파일로 변환할 수 있습니다.

  1. AsposeOcr 클래스 개체를 인스턴스화합니다.
  2. DocumentRecognitionSettings 클래스 개체를 만듭니다.
  3. 인식 결과를 저장하고 StringBuilder 클래스 인스턴스를 초기화합니다.
  4. 결과를 TXT 파일로 저장합니다.

아래 코드 스니펫은 C#에서 프로그래밍 방식으로 스캔한 PDF 파일을 TXT 파일로 변환하는 방법을 설명합니다.

// AsposeOcr 클래스 인스턴스 초기화
AsposeOcr api = new AsposeOcr();

// PDF에서 이미지 인식           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 인식 결과 저장
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// StringBuilder 클래스 개체 초기화
StringBuilder builder = new StringBuilder();

// 결과를 TXT 파일로 저장
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

무료 평가 라이센스 받기

무료 평가판 라이선스를 요청하여 전체 용량으로 API를 테스트할 수 있습니다.

결론

이 문서에서는 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF를 텍스트 문자열 또는 텍스트 파일로 변환하는 방법을 배웠습니다. 또한 문서를 방문하여 API의 여러 다른 기능을 확인할 수 있습니다. 문제가 있는 경우 포럼으로 언제든지 문의해 주십시오.

또한보십시오