trích xuất hình ảnh từ tài liệu word trong python

Một bưc tranh đang gia ngan lơi noi. Đây là lý do hình ảnh là một phần không thể thiếu trong tài liệu, cụ thể là tài liệu Word. Các hình ảnh được sử dụng để làm cho nội dung hấp dẫn và bắt mắt hơn. Khi phân tích cú pháp tài liệu Word, bạn có thể gặp trường hợp cần trích xuất hình ảnh. Để đạt được điều này theo chương trình, bài viết này trình bày cách trích xuất hình ảnh từ Word DOC DOCX bằng Python.

Thư viện Python để trích xuất hình ảnh từ tài liệu Word DOC DOCX

Aspose.Words for Python là một thư viện mạnh mẽ và giàu tính năng được sử dụng để tạo và thao tác các tài liệu Word. Chúng tôi sẽ sử dụng thư viện này để trích xuất hình ảnh từ các tệp DOCX hoặc DOC. Bạn có thể cài đặt nó trong các ứng dụng Python của mình từ PyPI bằng cách sử dụng lệnh pip sau.

pip install aspose-words

Trích xuất hình ảnh từ Word DOC bằng Python

Hình ảnh trong tài liệu Word được biểu diễn bằng các nút hình dạng. Do đó, để lấy hình ảnh từ một tài liệu, bạn sẽ phải phân tích cú pháp các hình dạng. Các bước sau đây cho biết cách trích xuất hình ảnh từ Word DOC bằng Python.

  • Đầu tiên, tải tài liệu Word bằng lớp Tài liệu.
  • Sau đó, lấy tất cả các hình dạng vào một đối tượng bằng phương thức Document.getchildnodes (NodeType.SHAPE, True).
  • Lặp qua các hình dạng và đối với mỗi hình dạng, hãy thực hiện các thao tác sau:
    • Truyền hình dạng thành kiểu Hình dạng bằng cách sử dụng phương thức asshape().
    • Kiểm tra xem hình dạng có hình ảnh hay không bằng cách sử dụng phương thức Shape.hasimage().
    • Lưu hình dạng dưới dạng hình ảnh bằng phương thức Shape.imagedata.save (string).

Mẫu mã sau đây cho thấy cách trích xuất hình ảnh từ tài liệu Word DOCX bằng Python.

import aspose.words as aw

# tải tài liệu Word
doc = aw.Document("calibre.docx")

# lấy tất cả các hình dạng
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# vòng qua các hình dạng
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # đặt tên tệp hình ảnh
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # lưu hình ảnh
        shape.image_data.save(imageFileName)
        imageIndex += 1

API để trích xuất hình ảnh từ DOC DOCX - Nhận giấy phép API miễn phí

Bạn có thể nhận giấy phép tạm thời để sử dụng Aspose.Words dành cho Python mà không có giới hạn đánh giá.

Sự kết luận

Hình ảnh thường được sử dụng trong văn bản Word để làm cho nội dung hấp dẫn hơn. Trong nhiều trường hợp, hình ảnh cũng được yêu cầu trích xuất từ tài liệu cùng với văn bản. Vì vậy, trong bài viết này, bạn đã biết cách trích xuất hình ảnh từ tài liệu Word DOC DOCX bằng Python. Bên cạnh đó, bạn có thể khám phá tài liệu của Aspose.Words dành cho Python. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.

Xem thêm

Thông tin: Nếu bạn cần lấy tài liệu Word từ bản trình bày PowerPoint, bạn có thể sử dụng trình chuyển đổi Aspose Trình bày sang Tài liệu Word.