스캔한 PDF를 Word OCR csharp로

스캔한 PDF 파일에는 텍스트를 선택하거나 편집할 수 없는 이미지가 포함되어 있습니다. 특정 상황에서는 스캔한 PDF를 Word 문서로 변환해야 할 수 있습니다. 이 기사에서는 스캔한 PDF를 C#을 사용하여 프로그래밍 방식으로 DOCX 또는 DOC 형식의 Word 문서로 변환하는 방법을 배웁니다.

스캔한 PDF를 Word DOCX 변환기로 – C# API 설치

Aspose.OCR for .NET API로 OCR 작업을 수행하여 스캔한 PDF 파일로 작업한 다음 C#을 사용하여 프로그래밍 방식으로 Aspose.Words for .NET API를 사용하여 Word 문서를 만들 수 있습니다. New Releases에서 DLL 파일을 다운로드하거나 다음 NuGet 설치 명령을 사용하여 API를 구성할 수 있습니다.

PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words

C#을 사용하여 프로그래밍 방식으로 스캔한 PDF를 Word 문서로 변환

텍스트를 광학적으로 인식하여 스캔한 PDF 파일을 Word 문서로 변환할 수 있습니다. OCR 작업은 스캔한 PDF를 텍스트로 변환한 다음 Word 문서가 DOC 또는 DOCX 형식으로 생성됩니다. 스캔한 PDF를 Word 문서로 변환하려면 아래 단계를 따르십시오.

  1. AsposeOcr 클래스 인스턴스를 초기화합니다.
  2. DocumentRecognitionSettings 클래스를 사용하여 PDF에서 이미지를 인식합니다.
  3. StringBuilder 클래스 객체를 초기화하고 텍스트를 저장합니다.
  4. Document 클래스로 워드 문서를 초기화합니다.
  5. 글꼴 및 단락 서식을 지정합니다.
  6. 출력 Word 문서를 DOCX 또는 DOC 파일로 저장합니다.

다음 코드 조각은 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 Word 문서로 변환하는 방법을 보여줍니다.

// AsposeOcr 클래스 인스턴스 초기화
AsposeOcr api = new AsposeOcr();

// DocumentRecognitionSettings 클래스를 사용하여 PDF에서 이미지 인식    
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// 인식 결과 저장
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);

// StringBuilder 클래스 객체 초기화
StringBuilder text = new StringBuilder();

// 결과를 텍스트로 저장
foreach (Aspose.OCR.RecognitionResult page in result)
{
    text.Append(page.RecognitionText);
}

// Document 클래스를 사용하여 워드 문서를 초기화합니다.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 글꼴 서식 지정
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";

// 단락 서식 지정
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;

builder.Writeln(text.ToString());

// 출력 Word 문서를 저장합니다. 
doc.Save("Scanned_PDF_to_Word.docx");

무료 평가판 라이선스 받기

무료 임시 라이선스를 요청하여 API를 전체 용량으로 테스트할 수 있습니다.

결론

이 기사에서는 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 DOCX 또는 DOC 형식의 Word 문서로 변환하는 방법을 배웠습니다. 또한 문서를 방문하여 다른 여러 OCR 관련 기능을 탐색할 수 있습니다. 문의 사항이 있는 경우 포럼으로 언제든지 연락해 주십시오.

또한보십시오

팁: PowerPoint 프레젠테이션에서 Word 문서를 가져와야 하는 경우 Aspose Presentation to Word Document 변환기를 사용할 수 있습니다.