파이썬에서 pdf에서 이미지 추출

이미지는 일반적으로 텍스트와 함께 PDF 문서에 사용되므로 콘텐츠를 더욱 매력적이고 정교하게 만듭니다. PDF 문서를 처리하고 분석하는 동안 이미지도 추출해야 할 수 있습니다. 따라서 이 기사에서는 Python에서 프로그래밍 방식으로 PDF 파일을 처리하고 이미지를 추출하는 방법을 보여줍니다. 단계별 가이드와 코드 샘플은 전체 이미지 추출 프로세스를 보여줍니다.

PDF에서 이미지를 추출하는 Python 라이브러리

PDF 파일에서 이미지를 추출하려면 Aspose.Words for Python을 사용합니다. PDF 및 DOCX를 포함한 텍스트 문서를 만들고 조작하는 강력하고 기능이 풍부한 라이브러리입니다. 다음 pip 명령을 사용하여 PyPI에서 라이브러리를 설치할 수 있습니다.

> pip install aspose-words

PDF에서 이미지를 추출하는 단계

Aspose.Words for Python을 사용하면 몇 가지 간단한 단계로 PDF 파일에서 이미지를 추출할 수 있습니다. 다음은 Aspose.Words for Python을 사용하여 PDF에서 이미지를 추출하는 방법의 워크플로입니다.

  • 원하는 위치에서 PDF 파일을 로드합니다.
  • PDF를 DOCX 형식으로 변환합니다.
  • PDF의 DOCX 버전 처리 및 이미지 추출
  • 각 이미지를 원하는 위치에 파일로 저장합니다.

다음 섹션에서는 위에서 언급한 단계를 Python 코드로 변환하고 PDF에서 이미지를 추출하는 방법을 보여줍니다.

Python에서 PDF에서 이미지 추출

이미지 추출 과정에서 먼저 PDF 파일을 DOCX 형식으로 변환합니다. DOCX 파일에서 이미지는 모양 노드로 표시됩니다. 따라서 각 모양을 처리하고 이미지를 추출합니다.

다음은 Python에서 PDF에서 이미지를 추출하는 단계입니다.

  • 먼저 Document 클래스를 사용하여 PDF 파일을 로드합니다.
  • 그런 다음 PDF를 DOCX 형식으로 저장하고 PDF 파일의 DOCX 버전을 로드합니다.
  • Document.getchildnodes(NodeType.SHAPE, True) 메서드를 사용하여 모든 모양을 개체로 검색합니다.
  • 모양을 반복하고 각 모양 노드에 대해 다음 작업을 수행합니다.
    • asshape() 메서드를 사용하여 모양을 Shape 유형으로 변환합니다.
    • Shape.hasimage() 메서드를 사용하여 모양에 이미지가 있는지 확인합니다.
    • 도형에서 이미지를 추출하고 Shape.imagedata.save(string) 메서드를 사용하여 저장합니다.

다음 코드 샘플은 Python의 PDF 문서에서 이미지 추출을 보여줍니다.

# Python 모듈용 Aspose.Words 가져오기
import aspose.words as aw

# PDF 파일을 로드하고 Word DOCX 형식으로 변환
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# PDF의 DOCX 버전 로드
doc = aw.Document("pdf.docx")

# 모든 모양 검색
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# 모양을 통해 루프
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # 이미지 파일 이름 설정
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # 이미지를 저장
        shape.image_data.save(imageFileName)
        imageIndex += 1

Python PDF 이미지 추출 라이브러리 - 무료 라이선스 받기

평가 제한 없이 PDF에서 이미지를 추출하기 위해 무료 임시 라이센스를 얻을 수 있습니다.

결론

PDF 문서를 분석하는 동안 텍스트와 함께 이미지도 추출해야 합니다. 이 기사에서는 Python에서 PDF에서 이미지를 추출하는 방법을 배웠습니다. Python용 Aspose.Words를 간단히 설치하고 애플리케이션에 이미지 추출을 통합할 수 있습니다.

Aspose의 PDF 이미지 추출 라이브러리 탐색

Aspose.Words for Python은 텍스트 문서를 조작하기 위한 다양한 기능을 제공합니다. 문서를 방문하여 라이브러리에 대해 자세히 알아볼 수 있습니다. 질문이 있는 경우 포럼을 통해 언제든지 알려주십시오.

또한보십시오