PDF에서 Word OCR Python으로

스캔한 PDF를 Word 문서로 변환하면 문서 내의 텍스트 편집과 같은 여러 가지 이점을 제공하여 쉽게 변경하거나 업데이트할 수 있습니다. 또한 대용량 문서나 연구를 수행할 때 매우 중요한 텍스트 검색 기능을 제공합니다. 또한 Python에서 OCR을 수행하는 동안 오타나 맞춤법이 틀린 단어를 수정하기 위해 맞춤법 검사를 수행할 수도 있습니다. 이에 따라 이 글에서는 Aspose.OCR for Python via .NET 라이브러리를 사용하여 Python에서 스캔한 PDF를 OCR이 있는 Word 문서로 변환하는 방법을 설명합니다.

OCR을 사용하여 PDF를 Word로 – Python API 설치

텍스트 인식을 시작하기 전에 Python에서 OCR을 실행하는 데 필요한 환경을 설정했는지 확인하십시오. Visual Studio Code 또는 IDLE 등과 같은 신뢰할 수 있는 코드 편집기 또는 통합 개발 환경(IDE)과 함께 시스템에 Python(가급적 버전 3.x 이상)이 설치되어 있는지 확인합니다. 그런 다음 다음을 위해 Aspose.OCR을 구성해야 합니다. 다음 설치 명령을 사용하여 New Releases 섹션 또는 PyPi에서 액세스하는 동안 .NET을 통해 Python:

pip install aspose-ocr-python-net

Python에서 OCR을 사용하여 스캔한 PDF를 Word로 변환

아래 단계에 따라 OCR을 사용하여 스캔한 PDF를 Word로 변환할 수 있습니다.

  1. AsposeOcr 클래스를 사용하여 API를 초기화합니다.
  2. 인식에 대해 다른 설정을 지정합니다.
  3. OCR로 텍스트를 인식하고 출력 DOCX Word 파일을 저장합니다.

다음 코드 스니펫은 Python에서 OCR을 사용하여 스캔한 PDF를 Word로 변환하는 방법을 보여줍니다.

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

Python에서 OCR 및 맞춤법 검사를 사용하여 PDF를 Word로 변환

OCR 엔진은 특히 복잡한 레이아웃, 손글씨 또는 낮은 품질의 스캔을 처리할 때 때때로 부정확성을 생성할 수 있습니다. 이러한 경우 맞춤법 교정은 변환된 텍스트의 정확성을 향상시키는 데 중요한 역할을 합니다. 이 섹션에서는 특히 OCR 및 Python의 맞춤법 검사 기능을 사용하여 PDF를 Word로 변환하는 방법을 다룹니다. 이러한 요구 사항을 충족하려면 아래 단계를 따라야 합니다.

  1. AsposeOcr 클래스의 인스턴스를 초기화합니다.
  2. RecognitionSettings 클래스를 사용하여 다른 속성을 설정합니다.
  3. OCR로 PDF를 인식하고 추출된 문자열의 맞춤법을 검사합니다.
  4. 출력 Word 문서를 DOCX 형식으로 내보냅니다.

아래 샘플 코드는 Python에서 OCR을 사용하여 PDF를 Word 문서로 변환하는 방법을 설명합니다.

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

무료 평가 라이센스 받기

평가 제한 및 워터마크를 방지하기 위해 무료 임시 라이선스를 받을 수 있습니다.

합산

이 블로그 게시물에서는 Python에서 OCR을 사용하여 스캔한 PDF를 Word 문서로 변환하는 방법을 살펴보았습니다. OCR의 중요성과 그 이점에 대해 논의하고 환경 설정, 여러 설정을 지정하는 동안 다양한 접근 방식으로 PDF 문서에서 텍스트를 추출하고 Word 문서에 저장하기 위한 단계별 가이드를 제공했습니다. 이 가이드를 사용하면 Python 및 OCR을 사용하여 스캔한 PDF를 편집 가능한 Word 문서로 자동 변환하여 데이터 추출 및 조작의 가능성을 열어줍니다. 우려 사항에 대해 논의해야 하는 경우 무료 지원 포럼에서 언제든지 저희에게 편지를 보내주십시오.

또한보십시오