trích xuất hình ảnh từ pdf trong python

Hình ảnh thường được sử dụng trong các tài liệu PDF cùng với văn bản, điều này làm cho nội dung trở nên hấp dẫn và trau chuốt hơn. Trong khi xử lý và phân tích tài liệu PDF, bạn cũng có thể cần trích xuất hình ảnh. Do đó, trong bài viết này, chúng tôi sẽ trình bày cách xử lý tệp PDF và trích xuất hình ảnh theo lập trình bằng Python. Hướng dẫn từng bước và mẫu mã sẽ minh họa toàn bộ quy trình trích xuất hình ảnh.

Thư viện Python để trích xuất hình ảnh từ PDF

Để trích xuất hình ảnh từ tệp PDF, chúng tôi sẽ sử dụng Aspose.Words dành cho Python. Đây là một thư viện mạnh mẽ và giàu tính năng để tạo và thao tác các tài liệu văn bản bao gồm PDF và DOCX. Bạn có thể cài đặt thư viện từ PyPI bằng lệnh pip sau.

> pip install aspose-words

Các bước để trích xuất hình ảnh từ PDF

Aspose. AdWords for Python cho phép bạn trích xuất hình ảnh từ tệp PDF trong một vài bước đơn giản. Sau đây là quy trình làm việc về cách trích xuất hình ảnh từ một tệp PDF bằng cách sử dụng Aspose.Words for Python.

  • Tải tệp PDF từ vị trí mong muốn.
  • Chuyển đổi PDF sang định dạng DOCX.
  • Xử lý phiên bản DOCX của PDF và trích xuất hình ảnh
  • Lưu từng hình ảnh dưới dạng tệp vào vị trí mong muốn.

Phần sau đây trình bày cách chuyển các bước nêu trên thành mã Python và trích xuất hình ảnh từ PDF.

Trích xuất hình ảnh từ PDF bằng Python

Trong quá trình giải nén ảnh, đầu tiên chúng ta sẽ chuyển đổi file PDF sang định dạng DOCX. Trong tệp DOCX, hình ảnh được biểu diễn bằng các nút hình dạng. Do đó, chúng tôi sẽ xử lý từng hình dạng và trích xuất hình ảnh từ đó.

Sau đây là các bước để trích xuất hình ảnh từ một tệp PDF bằng Python.

  • Đầu tiên, tải tệp PDF bằng lớp Tài liệu.
  • Sau đó, lưu PDF ở định dạng DOCX và tải phiên bản DOCX của tệp PDF.
  • Lấy tất cả các hình dạng vào một đối tượng bằng phương thức Document.getchildnodes (NodeType.SHAPE, True).
  • Lặp qua các hình dạng và thực hiện các thao tác sau cho mỗi nút hình dạng:
    • Truyền hình dạng thành kiểu Hình dạng bằng phương thức asshape().
    • Sử dụng phương thức Shape.hasimage() để kiểm tra xem hình dạng có hình ảnh hay không.
    • Trích xuất hình ảnh từ hình dạng và lưu bằng phương thức Shape.imagedata.save (string).

Mẫu mã sau đây minh họa việc trích xuất hình ảnh từ tài liệu PDF bằng Python.

# Nhập mô-đun Aspose. AdWords cho Python
import aspose.words as aw

# tải tệp PDF và chuyển đổi sang định dạng Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# tải phiên bản DOCX của PDF
doc = aw.Document("pdf.docx")

# lấy tất cả các hình dạng
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# vòng qua các hình dạng
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # đặt tên tệp hình ảnh
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # lưu hình ảnh
        shape.image_data.save(imageFileName)
        imageIndex += 1

Thư viện trích xuất hình ảnh PDF trong Python - Nhận giấy phép miễn phí

Bạn có thể nhận giấy phép tạm thời miễn phí để trích xuất hình ảnh từ PDF mà không có giới hạn đánh giá.

Sự kết luận

Trong khi phân tích tài liệu PDF, hình ảnh cũng được yêu cầu phải được trích xuất cùng với văn bản. Trong bài viết này, bạn đã học cách trích xuất hình ảnh từ PDF bằng Python. Bạn có thể chỉ cần cài đặt Aspose.Words for Python và tích hợp tính năng trích xuất hình ảnh trong các ứng dụng của mình.

Khám phá Thư viện trích xuất hình ảnh PDF của Aspose

Aspose. AdWords dành cho Python cung cấp một loạt các tính năng khác để thao tác với các tài liệu văn bản. Bạn có thể truy cập tài liệu để khám phá thêm về thư viện. Trong trường hợp bạn có bất kỳ câu hỏi nào, vui lòng cho chúng tôi biết qua diễn đàn của chúng tôi.

Xem thêm