Nếu bạn đang tìm kiếm một phương pháp đơn giản để trích xuất hình ảnh từ PDF bằng Python, thì bài viết này cung cấp một giải pháp hữu ích. Bằng cách làm theo một số bước đơn giản, bạn có thể tìm hiểu cách xử lý tệp PDF và trích xuất hình ảnh của tệp đó một cách hiệu quả. Vì vậy, hãy xem cách trích xuất hình ảnh từ tệp PDF bằng Python.
- Thư viện Python để trích xuất hình ảnh từ PDF
- Trích xuất hình ảnh từ PDF bằng Python
- Trình trích xuất hình ảnh PDF trực tuyến
Thư viện Python để trích xuất hình ảnh trong PDF
Để trích xuất hình ảnh từ PDF, chúng tôi sẽ sử dụng Aspose.PDF for Python. Đây là một thư viện PDF mạnh mẽ cho phép bạn tạo và xử lý các tệp PDF một cách dễ dàng. Ngoài ra, nó cho phép bạn phân tích cú pháp PDF và trích xuất hình ảnh trong một vài dòng mã. Sử dụng lệnh pip sau để cài đặt thư viện trong ứng dụng của bạn.
> pip install aspose-pdf
Cách trích xuất hình ảnh từ PDF bằng Python
Sau đây là các bước chúng tôi sẽ thực hiện để trích xuất hình ảnh từ tệp PDF.
- Tải tệp PDF.
- Lặp lại các trang trong PDF.
- Trích xuất từng hình ảnh một.
- Lưu các hình ảnh được trích xuất.
Bây giờ, hãy chuyển đổi các bước này thành mã Python và trích xuất hình ảnh từ tệp PDF.
Trích xuất hình ảnh PDF trong Python
Sau đây là các bước để trích xuất hình ảnh từ PDF bằng Python.
- Đầu tiên, tải tệp PDF bằng lớp Tài liệu.
- Lặp lại các trang của PDF bằng cách sử dụng bộ sưu tập document.pages.
- Đối với mỗi trang, hãy truy cập mọi XImage trong bộ sưu tập resource.images.
- Lưu từng hình ảnh vào vị trí mong muốn bằng phương thức XImage.save().
Mẫu mã sau đây cho biết cách trích xuất hình ảnh từ tệp PDF bằng Python.
import aspose.pdf as ap
import aspose.pydrawing as drawing
# Tải PDF
document = ap.Document("document.pdf")
image_counter = 1
image_name = "image_{counter}.jpg"
# Lặp qua tất cả các trang
for page in document.pages:
# Lặp qua các hình ảnh trên trang
for image in page.resources.images:
# Tạo một đối tượng dòng bộ nhớ để lưu hình ảnh
with open(image_name.format(counter=image_counter), "wb") as stream:
# Lưu hình ảnh
image.save(stream, drawing.imaging.ImageFormat.jpeg)
image_counter = image_counter + 1
Trình trích xuất hình ảnh PDF trực tuyến
Chúng tôi cũng cung cấp trình phân tích cú pháp PDF trực tuyến, dựa trên Aspose.PDF for Python. Bạn có thể sử dụng công cụ miễn phí này để phân tích cú pháp tệp PDF và trích xuất hình ảnh.
Thư viện Python PDF
Bạn có thể nhận giấy phép tạm thời miễn phí và trích xuất hình ảnh từ tệp PDF mà không có bất kỳ giới hạn nào.
Ngoài ra, bạn có thể khám phá thêm về thư viện Python PDF bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể gửi truy vấn của mình trên diễn đàn của chúng tôi.
Phần kết luận
Trong bài viết này, bạn đã học cách trích xuất hình ảnh từ tệp PDF bằng Python. Hướng dẫn từng bước và mẫu mã đã trình bày cách phân tích cú pháp PDF và trích xuất hình ảnh từ mỗi trang. Ngoài ra, chúng tôi đã cung cấp cho bạn một ứng dụng trực tuyến miễn phí để trích xuất văn bản và hình ảnh PDF. Bạn có thể sử dụng ứng dụng này từ bất kỳ thiết bị nào có kết nối internet.