Python에서 PDF에서 텍스트 추출

PDF 파일을 처리하는 동안 페이지에서 콘텐츠를 일반 텍스트로 추출해야 하는 경우가 많습니다. 이 일반 텍스트는 텍스트 분석, 텍스트 처리 등과 같은 다양한 용도로 사용할 수 있습니다. 이 기사에서는 Python에서 PDF에서 텍스트를 추출하는 방법을 배웁니다. 코드 샘플의 도움으로 기사는 전체 PDF 또는 단일 페이지에서 텍스트 추출을 수행하는 방법을 보여줍니다.

PDF에서 텍스트를 추출하는 Python 라이브러리

PDF 파일에서 텍스트를 추출하기 위해 Aspose.PDF for Python을 사용합니다. PDF 파일을 생성하고 처리할 수 있는 강력한 PDF 조작 라이브러리입니다. 또한 PDF 파일을 다른 형식으로 변환할 수 있습니다.

다음 pip 명령을 사용하여 Python용 Aspose.PDF를 설치할 수 있습니다.

pip install aspose-pdf

Python에서 PDF에서 텍스트 추출

다음은 Python에서 PDF에서 텍스트를 추출하는 단계입니다.

  • 문서 클래스를 사용하여 PDF 파일을 로드합니다.
  • TextDevice 클래스의 인스턴스를 만듭니다.
  • 페이지 수에 대한 루프를 시작합니다.
  • 각 반복에서 TextDevice.process() 메서드를 사용하여 페이지에서 텍스트를 추출하고 추출된 텍스트를 .txt 파일에 저장합니다.

다음 코드 샘플은 Python에서 PDF에서 텍스트를 추출하는 방법을 보여줍니다.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# PDF 문서 열기
document = ap.Document("input.pdf")

# 텍스트 장치 만들기
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # 페이지를 TXT로 내보내기
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

PDF의 특정 페이지에서 텍스트 추출

Document.pages 배열의 페이지 번호를 사용하여 PDF의 특정 페이지에서 텍스트를 추출할 수도 있습니다. 다음 코드 샘플은 PDF의 특정 페이지에서 텍스트를 추출하는 방법을 보여줍니다.

import aspose.pdf as ap

# PDF 문서 열기
document = ap.Document("input.pdf")

# 텍스트 장치 만들기
textDevice = ap.devices.TextDevice()

# 첫 페이지에서 텍스트 추출
textDevice.process(document.pages[1], "extracted_text.txt")

PDF 온라인에서 텍스트 추출

온라인 PDF 텍스트 추출 도구를 사용하여 PDF 파일에서 텍스트를 추출할 수도 있습니다. 별도의 가입이나 가입 없이 사용할 수 있는 무료 도구입니다.

무료 PDF 텍스트 추출 라이브러리

무료 임시 라이선스를 받고 제한 없이 PDF 파일에서 텍스트를 추출하세요.

Python PDF 라이브러리 살펴보기

문서를 사용하여 Python PDF 라이브러리에 대해 자세히 알아볼 수 있습니다. 또한 포럼에 쿼리를 게시할 수 있습니다.

결론

이 기사에서는 Python에서 PDF에서 텍스트를 추출하는 방법을 배웠습니다. 단계 및 코드 샘플은 전체 PDF 또는 특정 페이지에서 텍스트를 추출하는 방법을 보여줍니다. 라이브러리를 쉽게 설치하고 Python 애플리케이션 내에서 텍스트 추출을 수행할 수 있습니다.

또한보십시오