스캔한 PDF를 C#에서 OCR로 검색 가능

PDF 파일은 일반적으로 스캐너나 이미징 장치를 사용하여 만든 이미지를 기반으로 하는 경우가 있습니다. OCR을 사용하여 스캔한 PDF 파일을 검색 가능한 PDF 파일로 변환하여 문서에서 텍스트를 편집하거나 업데이트할 수 있습니다. 해당 시나리오에 따라 이 문서에서는 C#을 사용하여 프로그래밍 방식으로 OCR 작업을 통해 스캔한 PDF를 검색 가능한 PDF로 변환하는 방법을 설명합니다.

스캔한 PDF를 OCR로 검색 가능한 PDF로 변환 – C# API 설치

Aspose.OCR for .NET API를 사용하여 스캔한 PDF 파일에 대해 OCR 작업을 수행할 수 있습니다. New Releases 섹션에서 DLL 파일을 다운로드하거나 다음 NuGet 설치 명령을 사용하여 API를 구성하기만 하면 됩니다.

PM> Install-Package Aspose.OCR

C#을 사용하여 프로그래밍 방식으로 스캔한 PDF를 검색 가능한 PDF로 변환

다음 단계에 따라 광학적으로 텍스트를 인식하면서 스캔한 PDF 파일을 검색 가능한 PDF 문서로 변환할 수 있습니다.

  1. AsposeOcr 클래스 인스턴스를 초기화합니다.
  2. RecognizePdf 방법을 사용하여 PDF에서 이미지를 인식합니다.
  3. DocumentRecognitionSettings 클래스를 사용하여 OCR 인식에 대해 다른 속성을 설정합니다.
  4. OCR 결과를 검색 가능한 PDF 파일로 저장합니다.

아래 코드 조각은 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF를 검색 가능한 PDF 문서로 변환하는 방법을 설명합니다.

// 스캔한 여러 페이지 PDF 경로
string fullPath = "multi_page.pdf";

// AsposeOcr 클래스 객체 초기화
AsposeOcr api = new AsposeOcr();

// PDF에서 이미지 인식           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// 검색 가능한 PDF로 결과 저장
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

무료 평가판 라이선스 받기

임시 무료 라이선스를 신청하면 OCR 작업으로 스캔한 PDF의 텍스트를 제한 없이 인식하는 기능을 평가할 수 있습니다.

결론

이 기사에서는 C#에서 프로그래밍 방식으로 OCR 작업을 수행하여 스캔한 PDF 파일을 검색 가능한 PDF 문서로 변환하는 방법을 배웠습니다. 또한 문서를 방문하여 API에서 제공하는 기타 여러 OCR 관련 기능을 확인할 수 있습니다. 문의 사항이 있으시면 언제든지 포럼으로 연락해 주십시오.

또한보십시오