스캔한 PDF 파일에는 텍스트를 선택하거나 편집할 수 없는 이미지가 포함되어 있습니다. 특정 상황에서는 스캔한 PDF를 Word 문서로 변환해야 할 수 있습니다. 이 기사에서는 스캔한 PDF를 C#을 사용하여 프로그래밍 방식으로 DOCX 또는 DOC 형식의 Word 문서로 변환하는 방법을 배웁니다.
스캔한 PDF를 Word DOCX 변환기로 – C# API 설치
Aspose.OCR for .NET API로 OCR 작업을 수행하여 스캔한 PDF 파일로 작업한 다음 C#을 사용하여 프로그래밍 방식으로 Aspose.Words for .NET API를 사용하여 Word 문서를 만들 수 있습니다. New Releases에서 DLL 파일을 다운로드하거나 다음 NuGet 설치 명령을 사용하여 API를 구성할 수 있습니다.
PM> Install-Package Aspose.OCR
PM> Install-Package Aspose.Words
C#을 사용하여 프로그래밍 방식으로 스캔한 PDF를 Word 문서로 변환
텍스트를 광학적으로 인식하여 스캔한 PDF 파일을 Word 문서로 변환할 수 있습니다. OCR 작업은 스캔한 PDF를 텍스트로 변환한 다음 Word 문서가 DOC 또는 DOCX 형식으로 생성됩니다. 스캔한 PDF를 Word 문서로 변환하려면 아래 단계를 따르십시오.
- AsposeOcr 클래스 인스턴스를 초기화합니다.
- DocumentRecognitionSettings 클래스를 사용하여 PDF에서 이미지를 인식합니다.
- StringBuilder 클래스 객체를 초기화하고 텍스트를 저장합니다.
- Document 클래스로 워드 문서를 초기화합니다.
- 글꼴 및 단락 서식을 지정합니다.
- 출력 Word 문서를 DOCX 또는 DOC 파일로 저장합니다.
다음 코드 조각은 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 Word 문서로 변환하는 방법을 보여줍니다.
// AsposeOcr 클래스 인스턴스 초기화
AsposeOcr api = new AsposeOcr();
// DocumentRecognitionSettings 클래스를 사용하여 PDF에서 이미지 인식
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;
// 인식 결과 저장
List<RecognitionResult> result = api.RecognizePdf(@"multi_page.pdf", set);
// StringBuilder 클래스 객체 초기화
StringBuilder text = new StringBuilder();
// 결과를 텍스트로 저장
foreach (Aspose.OCR.RecognitionResult page in result)
{
text.Append(page.RecognitionText);
}
// Document 클래스를 사용하여 워드 문서를 초기화합니다.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// 글꼴 서식 지정
Aspose.Words.Font font = builder.Font;
font.Size = 16;
font.Color = System.Drawing.Color.Blue;
font.Name = "Arial";
// 단락 서식 지정
Aspose.Words.ParagraphFormat paragraphFormat = builder.ParagraphFormat;
paragraphFormat.FirstLineIndent = 8;
paragraphFormat.Alignment = Aspose.Words.ParagraphAlignment.Justify;
paragraphFormat.KeepTogether = true;
builder.Writeln(text.ToString());
// 출력 Word 문서를 저장합니다.
doc.Save("Scanned_PDF_to_Word.docx");
무료 평가판 라이선스 받기
무료 임시 라이선스를 요청하여 API를 전체 용량으로 테스트할 수 있습니다.
결론
이 기사에서는 C#을 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 DOCX 또는 DOC 형식의 Word 문서로 변환하는 방법을 배웠습니다. 또한 문서를 방문하여 다른 여러 OCR 관련 기능을 탐색할 수 있습니다. 문의 사항이 있는 경우 포럼으로 언제든지 연락해 주십시오.
또한보십시오
팁: PowerPoint 프레젠테이션에서 Word 문서를 가져와야 하는 경우 Aspose Presentation to Word Document 변환기를 사용할 수 있습니다.