스캔한 PDF 문서는 검색하거나 편집할 수 있는 텍스트가 부족하여 작업하기 어려운 경우가 많습니다. 그러나 광학 문자 인식(OCR) 기술의 힘으로 스캔한 PDF에서 텍스트를 추출하여 검색하거나 편집할 수 있는 형식으로 변환하는 것이 현실이 되었습니다. 이 블로그 게시물에서는 Python에서 OCR을 사용하여 PDF 텍스트 인식을 수행하는 방법을 배웁니다. 또한 스캔한 PDF 파일에서 텍스트를 추출하고, 검색 가능하거나 편집 가능한 PDF로 변환하고, Aspose.OCR for Python via .NET 라이브러리를 사용하여 Python의 OCR 기능의 잠재력을 최대한 활용하는 방법을 살펴봅니다.
- OCR로 스캔한 PDF에서 텍스트 인식 - Python API 설치
- Python에서 OCR을 사용하여 PDF에서 텍스트 인식
- Python에서 OCR을 사용하여 스캔한 PDF를 검색 가능하거나 편집 가능한 PDF로 변환
OCR로 스캔한 PDF에서 텍스트 인식 – Python API 설치
광학 문자 인식(OCR)은 이미지나 스캔한 문서를 기계가 읽을 수 있는 텍스트로 변환할 수 있는 기술입니다. OCR 알고리즘은 이미지에 있는 문자의 모양과 패턴을 분석하여 텍스트를 식별하고 인식하여 그 안에 포함된 정보를 추출하고 처리할 수 있습니다. 시작하기 전에 New Releases 페이지에서 다운로드하여 .NET을 통해 Python용 Aspose.OCR을 설치하거나 아래 설치 명령을 실행하여 PyPi에서 구성해야 합니다.
pip install aspose-ocr-python-net
Python에서 OCR을 사용하여 PDF에서 텍스트 인식
Python에서 OCR을 사용하여 PDF에서 텍스트를 인식하거나 추출할 수 있습니다. 아래 단계는 Python에서 OCR을 사용하여 PDF에서 텍스트를 인식하는 간단한 프로세스를 간략하게 설명하므로 스캔한 PDF 문서에서 텍스트를 효율적으로 추출합니다.
- AsposeOcr 클래스의 개체를 인스턴스화합니다.
- 스캔한 PDF 파일을 로드합니다.
- OCR로 텍스트를 인식하고 출력을 콘솔에 출력합니다.
아래 샘플 코드는 Python에서 OCR을 사용하여 PDF의 텍스트를 인식하는 방법을 보여줍니다.
import aspose.ocr as ocr
# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()
# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")
# Recognize text with OCR
result = api.recognize(input)
# Print the output text to the console
print(result[0].recognition_text)
Python에서 OCR을 사용하여 스캔한 PDF를 검색 가능하거나 편집 가능한 PDF로 변환
스캔한 PDF 파일에는 텍스트를 검색할 수 없는 이미지가 포함되어 있으므로 검색 가능한 PDF 문서로 변환하여 문서를 기계에서 읽을 수 있도록 하고 그에 따라 추가로 처리해야 합니다. Python에서 검색하거나 편집할 수 있는 PDF 문서로 변환하려면 아래 단계를 따르십시오.
- AsposeOcr 클래스의 객체를 생성합니다.
- [RecognitionSettings][5] 클래스 인스턴스를 초기화하고 필요한 속성을 설정합니다.
- PDF 파일을 로드하고 OCR로 인식할 페이지 범위를 설정합니다.
- 출력 검색 가능한 PDF 파일을 저장합니다.
다음 샘플 코드는 Python에서 OCR을 사용하여 스캔한 PDF를 검색 가능한 PDF 문서로 변환하는 방법을 보여줍니다.
import aspose.ocr as ocr
api = ocr.AsposeOcr()
# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True
# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)
# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)
# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)
# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)
여기에서 PDF 문서의 모든 페이지 범위를 OCR할 수 있다는 점은 주목할 만합니다. 예를 들어 페이지 색인이 0부터 시작하고 마지막 매개변수가 API로 처리할 페이지 수인 특정 페이지의 텍스트만 인식합니다. 또한 OCR을 사용하여 텍스트를 정확하고 향상시키기 위해 노이즈 제거, 대비 설정, 입력 페이지 기울어짐 확인 등과 같은 소스 파일의 전처리를 위한 다양한 인식 설정을 지정할 수 있습니다.
무료 평가 라이센스 받기
평가 제한 없이 API를 평가하기 위해 무료 임시 라이센스를 요청할 수 있습니다.
합산
OCR 기술과 Python의 힘으로 스캔한 PDF에서 텍스트를 추출하여 검색하거나 편집할 수 있는 형식으로 변환하는 작업에 대한 접근성이 높아졌습니다. 여기에서는 Python에서 OCR을 사용하여 PDF 텍스트를 인식하는 과정을 살펴보았습니다. 설치 프로세스와 스캔한 PDF에서 텍스트 추출, OCR 구현, 스캔한 PDF를 검색 가능하거나 편집 가능한 형식으로 변환하는 방법에 대해 논의했습니다. OCR 기능을 활용하고 고급 기술을 사용하면 스캔한 PDF의 잠재력을 최대한 활용하고 프로젝트에서 더 쉽게 접근하고 다용도로 사용할 수 있습니다. 모호하거나 질문이 있는 경우 무료 지원 포럼을 통해 문의해 주세요.