스캔한 PDF를 Word Java OCR로

카메라 또는 스캐너 장치를 사용하여 만든 PDF 파일에는 스캔한 이미지가 포함되어 있습니다. 이러한 이미지는 텍스트 선택 또는 편집을 위해 처리할 수 없으므로 스캔한 PDF를 DOCX 또는 DOC 형식의 Word 문서로 변환해야 할 수 있습니다. 이 문서에서는 Java를 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 Word 파일로 변환하는 방법을 다룹니다.

스캔한 PDF를 Word 파일로 변환하는 Java API

Aspose.OCR for Java API를 사용하여 OCR 작업으로 스캔한 PDF 문서를 조작한 다음 프로그래밍 방식으로 Aspose.Words for Java API를 사용하여 Word 파일을 생성할 수 있습니다. 다운로드 섹션에서 JAR 파일을 다운로드하거나 다음 Maven 사양을 사용하여 API를 설정하기만 하면 됩니다.

저장소:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

의존:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Java를 사용하여 프로그래밍 방식으로 스캔한 PDF를 Word 문서로 변환

광학 문자 인식 기술을 사용하여 스캔한 PDF 파일을 Word 문서로 변환할 수 있습니다. 이것은 스캔한 PDF가 텍스트로 변환된 다음 텍스트가 DOC 또는 DOCX 형식의 Word 문서로 변환되는 2단계 프로세스입니다. 스캔한 PDF를 Word 문서로 변환하려면 아래 단계를 따라야 합니다.

  1. AsposeOCRPdf 클래스 개체를 인스턴스화합니다.
  2. DocumentRecognitionSettings 유형 개체를 사용하여 PDF 파일에서 이미지를 인식합니다.
  3. String 클래스 개체를 지정하고 텍스트를 저장합니다.
  4. Document 클래스로 새 워드 문서를 초기화합니다.
  5. 글꼴 및 단락 서식을 설정합니다.
  6. 마지막으로 출력 Word 문서를 DOCX 또는 DOC 파일로 디스크에 씁니다.

아래 코드 조각은 Java를 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 Word 문서로 DOC 또는 DOCX 파일로 변환하는 방법을 보여줍니다.

// AsposeOcrPdf 인스턴스 초기화
AsposeOCRPdf api = new AsposeOCRPdf();

// 인식을 위한 PDF 파일 가져오기     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// RecognizePdf 메소드로 입력 PDF 파일 인식
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// 결과 인쇄
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Document 클래스를 사용하여 워드 문서를 초기화합니다.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// 글꼴 서식 지정
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// 단락 서식 지정
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// 출력 Word 문서를 저장합니다. 
doc.save("Scanned_PDF_to_Word_Java.docx");

무료 임시 라이센스 받기

임시 무료 라이선스를 요청하면 제한 없이 API를 평가할 수 있습니다.

결론

이 기사에서는 Java를 사용하여 프로그래밍 방식으로 스캔한 PDF 파일을 Word 문서로 DOCX 또는 DOC 파일로 변환하는 방법을 살펴보았습니다. 또한 문서를 방문하여 다른 OCR 관련 기능을 살펴볼 수 있습니다. 문제가 있는 경우 포럼으로 문의해 주십시오.

또한보십시오

정보: 프레젠테이션(PDF, 단어 문서 등으로) 및 [이미지 가져오기][14로 변환할 수 있는 다른 Java API(Aspose.Slides for Java)에 관심이 있을 수 있습니다. ] 또는 기타 문서를 프레젠테이션으로 변환합니다.