파이썬에서 워드 문서에서 이미지 추출

그림은 천 마디 말의 가치가 있습니다. 이것이 이미지가 문서, 특히 Word 문서의 필수적인 부분인 이유입니다. 이미지는 콘텐츠를 더 매력적이고 눈길을 끄는 데 사용됩니다. Word 문서를 구문 분석할 때 이미지를 추출해야 하는 시나리오를 접할 수 있습니다. 이를 프로그래밍 방식으로 달성하기 위해 이 기사에서는 Python의 Word 문서에서 이미지를 추출하는 방법을 다룹니다.

Word 문서에서 이미지를 추출하는 Python 라이브러리

Aspose.Words for Python은 Word 문서를 만들고 조작하는 데 사용되는 강력하고 기능이 풍부한 라이브러리입니다. 이 라이브러리를 사용하여 DOCX 또는 DOC 파일에서 이미지를 추출합니다. 다음 pip 명령을 사용하여 PyPI에서 Python 애플리케이션에 설치할 수 있습니다.

pip install aspose-words

Python의 Word 문서에서 이미지 추출

Word 문서의 이미지는 모양 노드로 표시됩니다. 따라서 문서에서 이미지를 검색하려면 모양을 구문 분석해야 합니다. 다음 단계는 Python의 Word 문서에서 이미지를 추출하는 방법을 보여줍니다.

  • 먼저 Document 클래스를 사용하여 Word 문서를 로드합니다.
  • 그런 다음 Document.get_child\nodes(NodeType.SHAPE, True) 메서드를 사용하여 모든 모양을 개체로 검색합니다.
  • 모양을 반복하고 각 모양에 대해 다음 작업을 수행합니다.
    • as\shape() 메서드를 사용하여 모양을 Shape 유형으로 변환합니다.
    • Shape.has\image() 메서드를 사용하여 모양에 이미지가 있는지 확인합니다.
    • Shape.image\data.save(string) 메서드를 사용하여 모양을 이미지로 저장합니다.

다음 코드 샘플은 Python의 DOCX 문서에서 이미지를 추출하는 방법을 보여줍니다.

import aspose.words as aw

# load the Word document
doc = aw.Document("calibre.docx")

# retrieve all shapes
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# loop through shapes
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # set image file's name
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # save image
        shape.image_data.save(imageFileName)
        imageIndex += 1

무료 API 라이선스 받기

평가 제한 없이 Aspose.Words for Python을 사용할 수 있는 임시 라이선스를 얻을 수 있습니다.

결론

이미지는 일반적으로 콘텐츠를 더 매력적으로 만들기 위해 Word 문서에서 사용됩니다. 다양한 경우에 텍스트와 함께 문서에서 이미지도 추출해야 합니다. 따라서 이 기사에서는 Python의 Word 문서에서 이미지를 추출하는 방법을 배웠습니다. 이 외에도 Python용 Aspose.Words의 문서를 탐색할 수 있습니다. 질문이 있는 경우 포럼을 통해 언제든지 알려주십시오.

또한보십시오

정보: PowerPoint 프레젠테이션에서 Word 문서를 가져와야 하는 경우 Aspose Presentation to Word Document 변환기를 사용할 수 있습니다.