OCR PDF 및 C#의 PDF에서 텍스트 추출

PDF 파일은 가장 일반적인 비즈니스 문서 중 하나입니다. 경우에 따라 스캔한 PDF 문서를 프로그래밍 방식으로 읽어야 할 수도 있습니다. 스캔한 PDF 파일에서 텍스트를 추출하는 것이 어렵기 때문에 이러한 PDF 문서에서 텍스트를 더 쉽게 읽고 검색할 수 있는 도구가 개발되었습니다. 문서의 내용에 따라 PDF 파일에서 텍스트를 추출하는 것은 여러 가지 이유로 유용할 수 있습니다. 이 기사에서는 C#에서 PDF 문서를 OCR하고 PDF에서 텍스트를 추출하는 방법을 배웁니다.

이 기사에서 다룰 주제는 다음과 같습니다.

  1. OCR PDF에서 텍스트 C# API로
  2. OCR PDF 및 PDF에서 텍스트 추출
  3. PDF에서 OCR 수행 및 텍스트 저장
  4. OCR PDF를 Word 파일로
  5. OCR PDF를 JSON으로

OCR PDF를 텍스트 C# API로

Aspose.OCR for .NET API를 사용하여 PDF 문서에서 OCR을 수행할 것입니다. 스캔한 이미지, 스마트폰 사진, 스크린샷, 이미지 영역을 인식할 수 있습니다. API는 인식된 텍스트 결과를 가장 널리 사용되는 문서 및 데이터 교환 형식으로 반환합니다. 이미지를 텍스트로 변환하는 것 외에도 API는 스캔을 기반으로 검색 가능한 PDF를 생성할 수도 있습니다. 또한 인식된 텍스트의 맞춤법 오류를 자동으로 고칠 수 있습니다.

API는 OCR 작업을 수행하는 다양한 방법을 제공하는 AsposeOcr 클래스를 제공합니다. 제공된 PDF 문서에서 텍스트를 인식하기 위한 RecognizePdf(string, DocumentRecognitionSettings) 메서드를 제공합니다. API의 DocumentRecognitionSettings 클래스는 PDF 인식 프로세스에 대한 설정을 제공합니다. RecognitionResult 클래스는 이미지 인식 결과를 나타냅니다.

API의 DLL을 다운로드하거나 NuGet을 사용하여 설치하십시오.

PM> Install-Package Aspose.OCR

OCR PDF 및 C#의 PDF에서 텍스트 추출

PDF 문서에서 OCR을 수행하고 아래 단계에 따라 인식된 텍스트를 추출할 수 있습니다.

  1. 먼저 AsposeOcr 클래스의 인스턴스를 만듭니다.
  2. 다음으로 DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
  3. 그런 다음 OCR에 사용할 언어를 지정합니다.
  4. 그런 다음 RecognizePdf() 메서드를 호출하여 RecognitionResult를 가져옵니다. 이미지 경로와 DocumentRecognitionSettings 개체를 인수로 사용합니다.
  5. 마지막으로 RecognitionResult 목록을 반복하고 식별된 텍스트를 표시합니다.

다음 샘플 코드는 PDF 문서를 OCR하고 C#에서 인식된 텍스트를 추출하는 방법을 보여줍니다.

// 이 코드 예제는 PDF 문서를 OCR하고 인식된 텍스트를 추출하는 방법을 보여줍니다.
// PCR 엔진 초기화
AsposeOcr recognitionEngine = new AsposeOcr();

// 인식 설정 초기화
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR 언어를 지정합니다. 기본적으로 다국어
recognitionSettings.Language = Language.Eng;

// PDF에서 텍스트 인식
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 인식된 텍스트 표시
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF 및 C#의 PDF에서 텍스트 추출

OCR PDF 및 C#의 PDF에서 텍스트 추출

PDF에서 OCR 수행 및 C#에서 텍스트 저장

아래 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 저장할 수 있습니다.

  1. 먼저 AsposeOcr 클래스의 인스턴스를 만듭니다.
  2. 다음으로 DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
  3. 그런 다음 OCR에 사용할 언어를 지정합니다.
  4. 그런 다음 RecognizePdf() 메서드를 호출하여 RecognitionResult를 가져옵니다. 이미지 경로와 DocumentRecognitionSettings 개체를 인수로 사용합니다.
  5. 마지막으로 SaveMultipageDocument() 메서드를 사용하여 텍스트를 저장합니다. 출력 파일 경로, SaveFormat 및 RecognitionResult 개체를 인수로 사용합니다.

다음 샘플 코드는 PDF 문서를 OCR하고 인식된 텍스트를 C#에 저장하는 방법을 보여줍니다.

// 이 코드 예제는 PDF 문서를 OCR하고 인식된 텍스트를 추출하는 방법을 보여줍니다.
// PCR 엔진 초기화
AsposeOcr recognitionEngine = new AsposeOcr();

// 인식 설정 초기화
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR 언어를 지정합니다. 기본적으로 다국어
recognitionSettings.Language = Language.Eng;

// PDF에서 텍스트 인식
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 인식된 텍스트 저장
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
PDF에서 OCR 수행 및 C#에서 텍스트 저장

PDF에서 OCR 수행 및 C#에서 텍스트 저장

OCR PDF 및 C#에서 스캔한 PDF를 Word로 변환

앞에서 언급한 단계에 따라 스캔한 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 Word 문서에 저장할 수 있습니다. 그러나 마지막 단계에서 SaveFormat.Docx를 지정하기만 하면 됩니다.

다음 샘플 코드는 PDF를 OCR하고 인식된 텍스트를 C#에서 Word 문서로 저장하는 방법을 보여줍니다.

// 이 코드 예제는 PDF 문서를 OCR하고 인식된 텍스트를 DOCX로 저장하는 방법을 보여줍니다.
// PCR 엔진 초기화
AsposeOcr recognitionEngine = new AsposeOcr();

// 인식 설정 초기화
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR 언어를 지정합니다. 기본적으로 다국어
recognitionSettings.Language = Language.Eng;

// PDF에서 텍스트 인식
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 인식된 텍스트를 DOCX로 저장
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF 및 C#에서 스캔한 PDF를 Word로 변환

OCR PDF 및 C#에서 스캔한 PDF를 Word로 변환

OCR PDF 및 C#에서 PDF를 JSON으로 변환

앞에서 언급한 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 JSON 파일에 저장할 수 있습니다. 그러나 마지막 단계에서 SaveFormat.Json을 지정하기만 하면 됩니다.

다음 샘플 코드는 PDF를 OCR하고 인식된 텍스트를 C#에서 JSON 파일로 저장하는 방법을 보여줍니다.

// 이 코드 예제는 PDF 문서를 OCR하고 인식된 텍스트를 JSON으로 저장하는 방법을 보여줍니다.
// PCR 엔진 초기화
AsposeOcr recognitionEngine = new AsposeOcr();

// 인식 설정 초기화
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// OCR 언어를 지정합니다. 기본적으로 다국어
recognitionSettings.Language = Language.Eng;

// PDF에서 텍스트 인식
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// 인식된 텍스트를 JSON으로 저장
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

무료 평가 라이센스 받기

무료 임시 라이선스를 받아 평가 제한 없이 라이브러리를 사용해 볼 수 있습니다.

결론

이 기사에서는 PDF 문서에서 OCR을 수행하고 C#에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 또한 인식된 텍스트를 TXT, DOCXJSON 파일로 저장하는 방법도 살펴보았습니다. 또한 문서를 사용하여 .NET API용 Aspose.OCR에 대해 자세히 알아볼 수 있습니다. 모호한 점이 있으면 언제든지 포럼에 문의해 주십시오.

또한보십시오