OCR(광학 문자 인식) 기술은 PDF 문서를 비롯한 다양한 소스의 인쇄, 스캔 또는 필기 텍스트를 디지털화하는 데 중추적인 역할을 합니다. 이번 블로그 게시물에서는 Python에서 PDF 문서를 OCR하고 PDF에서 텍스트를 추출하는 방법을 알아봅니다.
이 문서에서는 다음 주제를 다룹니다.
PDF를 TXT로 - Python OCR API
Aspose.OCR for Python을 사용하여 PDF 문서에 OCR을 수행하고 PDF에서 텍스트를 추출하겠습니다. Aspose.OCR for Python은 스캔한 이미지, 스마트폰 사진, 스크린샷 및 이미지 영역에서 텍스트를 인식할 수 있는 강력한 광학 문자 인식(OCR) API입니다. API는 PDF, XML, JSON 및 일반 텍스트를 포함하여 가장 널리 사용되는 문서 및 데이터 교환 형식으로 인식된 텍스트 결과를 반환합니다.
이미지를 텍스트로 변환하는 것 외에도 Python용 Aspose.OCR은 스캔을 기반으로 검색 가능한 PDF를 생성할 수도 있습니다. API는 또한 인식된 텍스트의 철자 오류를 자동으로 수정할 수 있으므로 다양한 애플리케이션에 이상적입니다.
패키지를 다운로드하거나 콘솔에서 다음 pip 명령을 사용하여 PyPI에서 API를 설치하세요.
pip install aspose-ocr-python-net
Python OCR PDF - Python의 PDF에서 텍스트 추출
아래 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 추출할 수 있습니다.
- AsposeOcr 클래스의 인스턴스를 만듭니다.
- DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
- 인식 배치에 PDF 파일을 추가합니다.
- 그런 다음 recognition() 메서드를 호출합니다.
- 마지막으로 RecognitionResult 클래스를 사용하여 식별된 텍스트를 표시합니다.
다음 샘플 코드는 Python에서 PDF 문서를 OCR하고 PDF에서 텍스트를 추출하는 방법을 보여줍니다.
# 이 코드 예제는 Python에서 스캔한 PDF 문서에서 텍스트를 인식하고 추출하는 방법을 보여줍니다.
import aspose.ocr as ocr
# OCR 엔진 초기화
api = ocr.AsposeOcr()
# 인식 설정 초기화
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 인식 배치에 파일 추가
files = ocr.OcrInput(ocr.InputType.PDF)
# 스캔한 PDF에 액세스하여 페이지 번호와 총 페이지 수를 설정하세요.
files.add("C:\\Files\\sample.pdf", 0, 1)
# 텍스트를 인식
result = api.recognize(files , settings)
# 인식 결과 인쇄
print(result[0].recognition_text)
Python OCR PDF - 스캔한 PDF를 Python에서 텍스트로 저장
아래 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 저장할 수 있습니다.
- AsposeOcr 클래스의 인스턴스를 만듭니다.
- DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
- 인식 배치에 PDF 파일을 추가합니다.
- 그런 다음 recognition() 메서드를 호출합니다.
- 마지막으로 savemultipagedocument() 메서드를 사용하여 텍스트를 저장합니다. 출력 파일 경로, SaveFormat 및 RecognitionResult 개체를 인수로 사용합니다.
다음 샘플 코드는 PDF 문서를 OCR하고 인식된 텍스트를 Python에서 저장하는 방법을 보여줍니다.
# 이 코드 예제는 Python을 사용하여 텍스트 인식 및 추출을 저장하는 방법을 보여줍니다.
import aspose.ocr as ocr
# OCR 엔진 초기화
api = ocr.AsposeOcr()
# 인식 설정 초기화
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# 인식 배치에 파일 추가
files = ocr.OcrInput(ocr.InputType.PDF)
# 스캔한 PDF에 액세스하여 페이지 번호와 총 페이지 수를 설정하세요.
files.add("C:\\Files\\sample.pdf", 0, 1)
# 텍스트를 인식
result = api.recognize(files , settings)
# 인식 결과 인쇄
print(result[0].recognition_text)
# 추출된 텍스트를 저장하세요
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)
무료 평가판 라이선스 받기
무료 임시 라이선스를 받아 평가 제한 없이 라이브러리를 사용해 볼 수 있습니다.
Python OCR PDF - 무료 리소스
Python OCR API를 알아보려면 다음 리소스를 더 자세히 살펴보세요.
결론
이 기사에서는 PDF 문서에서 OCR을 수행하고 Python에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. OCR을 사용하여 PDF에서 텍스트를 추출하는 기능은 보관 및 법률 문서화부터 데이터 분석 및 콘텐츠 디지털화에 이르기까지 다양한 산업 분야에서 획기적인 변화를 가져왔습니다. 개발자와 애호가는 Python용 Aspose.OCR을 활용하여 OCR 기능을 Python 프로젝트에 원활하게 통합할 수 있습니다. 모호한 점이 있으면 언제든지 무료 지원 포럼에 문의해 주세요.