OCR PDF 및 Python의 PDF에서 텍스트 추출

OCR(광학 문자 인식) 기술은 PDF 문서를 비롯한 다양한 소스의 인쇄, 스캔 또는 필기 텍스트를 디지털화하는 데 중추적인 역할을 합니다. 이번 블로그 게시물에서는 Python에서 PDF 문서를 OCR하고 PDF에서 텍스트를 추출하는 방법을 알아봅니다.

이 문서에서는 다음 주제를 다룹니다.

  1. PDF에서 TXT Python OCR API로
  2. OCR PDF 및 PDF에서 텍스트 추출
  3. 스캔한 PDF를 텍스트로 저장
  4. 무료 학습 자료

PDF를 TXT로 - Python OCR API

Aspose.OCR for Python을 사용하여 PDF 문서에 OCR을 수행하고 PDF에서 텍스트를 추출하겠습니다. Aspose.OCR for Python은 스캔한 이미지, 스마트폰 사진, 스크린샷 및 이미지 영역에서 텍스트를 인식할 수 있는 강력한 광학 문자 인식(OCR) API입니다. API는 PDF, XML, JSON 및 일반 텍스트를 포함하여 가장 널리 사용되는 문서 및 데이터 교환 형식으로 인식된 텍스트 결과를 반환합니다.

이미지를 텍스트로 변환하는 것 외에도 Python용 Aspose.OCR은 스캔을 기반으로 검색 가능한 PDF를 생성할 수도 있습니다. API는 또한 인식된 텍스트의 철자 오류를 자동으로 수정할 수 있으므로 다양한 애플리케이션에 이상적입니다.

패키지를 다운로드하거나 콘솔에서 다음 pip 명령을 사용하여 PyPI에서 API를 설치하세요.

pip install aspose-ocr-python-net

Python OCR PDF - Python의 PDF에서 텍스트 추출

아래 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 추출할 수 있습니다.

  1. AsposeOcr 클래스의 인스턴스를 만듭니다.
  2. DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
  3. 인식 배치에 PDF 파일을 추가합니다.
  4. 그런 다음 recognition() 메서드를 호출합니다.
  5. 마지막으로 RecognitionResult 클래스를 사용하여 식별된 텍스트를 표시합니다.

다음 샘플 코드는 Python에서 PDF 문서를 OCR하고 PDF에서 텍스트를 추출하는 방법을 보여줍니다.

# 이 코드 예제는 Python에서 스캔한 PDF 문서에서 텍스트를 인식하고 추출하는 방법을 보여줍니다.
import aspose.ocr as ocr

# OCR 엔진 초기화
api = ocr.AsposeOcr()

# 인식 설정 초기화
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 인식 배치에 파일 추가
files = ocr.OcrInput(ocr.InputType.PDF)

# 스캔한 PDF에 액세스하여 페이지 번호와 총 페이지 수를 설정하세요.
files.add("C:\\Files\\sample.pdf", 0, 1)

# 텍스트를 인식
result = api.recognize(files , settings)

# 인식 결과 인쇄
print(result[0].recognition_text)

Python OCR PDF - 스캔한 PDF를 Python에서 텍스트로 저장

아래 단계에 따라 PDF 문서에서 OCR을 수행하고 인식된 텍스트를 저장할 수 있습니다.

  1. AsposeOcr 클래스의 인스턴스를 만듭니다.
  2. DocumentRecognitionSettings 클래스의 개체를 초기화합니다.
  3. 인식 배치에 PDF 파일을 추가합니다.
  4. 그런 다음 recognition() 메서드를 호출합니다.
  5. 마지막으로 savemultipagedocument() 메서드를 사용하여 텍스트를 저장합니다. 출력 파일 경로, SaveFormat 및 RecognitionResult 개체를 인수로 사용합니다.

다음 샘플 코드는 PDF 문서를 OCR하고 인식된 텍스트를 Python에서 저장하는 방법을 보여줍니다.

# 이 코드 예제는 Python을 사용하여 텍스트 인식 및 추출을 저장하는 방법을 보여줍니다.
import aspose.ocr as ocr

# OCR 엔진 초기화
api = ocr.AsposeOcr()

# 인식 설정 초기화
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# 인식 배치에 파일 추가
files = ocr.OcrInput(ocr.InputType.PDF)

# 스캔한 PDF에 액세스하여 페이지 번호와 총 페이지 수를 설정하세요.
files.add("C:\\Files\\sample.pdf", 0, 1)

# 텍스트를 인식
result = api.recognize(files , settings)

# 인식 결과 인쇄
print(result[0].recognition_text)

# 추출된 텍스트를 저장하세요
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

무료 평가판 라이선스 받기

무료 임시 라이선스를 받아 평가 제한 없이 라이브러리를 사용해 볼 수 있습니다.

Python OCR PDF - 무료 리소스

Python OCR API를 알아보려면 다음 리소스를 더 자세히 살펴보세요.

결론

이 기사에서는 PDF 문서에서 OCR을 수행하고 Python에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. OCR을 사용하여 PDF에서 텍스트를 추출하는 기능은 보관 및 법률 문서화부터 데이터 분석 및 콘텐츠 디지털화에 이르기까지 다양한 산업 분야에서 획기적인 변화를 가져왔습니다. 개발자와 애호가는 Python용 Aspose.OCR을 활용하여 OCR 기능을 Python 프로젝트에 원활하게 통합할 수 있습니다. 모호한 점이 있으면 언제든지 무료 지원 포럼에 문의해 주세요.

또한보십시오