Chuyển đổi PDF sang Word bằng Python

PDF là định dạng tệp thường được sử dụng để chia sẻ và in tài liệu. Tuy nhiên, trong một số trường hợp nhất định, tệp PDF được chuyển đổi sang định dạng Word DOCX để phân tích cú pháp văn bản hoặc làm cho tài liệu có thể chỉnh sửa được. Đối với các trường hợp như vậy, bài viết này trình bày cách chuyển đổi PDF sang DOCX bằng Python. Hơn nữa, bạn sẽ học cách chỉ định các tùy chọn tải khác nhau để kiểm soát việc tải các tệp PDF một cách linh hoạt.

Python PDF to DOCX Converter - Tải xuống miễn phí

Để chuyển đổi tệp PDF sang định dạng DOCX, chúng tôi sẽ sử dụng Aspose.Words for Python. Đây là một thư viện Python giàu tính năng để tạo, thao tác và chuyển đổi tài liệu Word. Hơn nữa, nó cung cấp khả năng chuyển đổi qua lại các tài liệu Word và PDF với độ trung thực cao. Aspose. AdWords dành cho Python được lưu trữ trên PyPI và có thể được cài đặt bằng lệnh pip sau.

pip install aspose-words

Chuyển đổi PDF sang DOCX bằng Python

Sử dụng Aspose.Words dành cho Python, bạn có thể chuyển đổi tệp PDF sang DOCX trong vòng một vài bước. Chỉ cần tải tệp PDF và lưu dưới dạng tài liệu DOCX. Sau đây là các bước để chuyển đổi PDF sang DOCX bằng Python.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Lưu tệp PDF dưới dạng tài liệu DOCX bằng phương thức Document.save().

Mẫu mã sau đây cho thấy cách chuyển đổi tệp PDF sang định dạng DOCX.

import aspose.words as aw

# tải tệp PDF
doc = aw.Document("PDF.pdf")

# chuyển đổi định dạng PDF sang Word DOCX
doc.save("pdf-to-word.docx")

Chuyển đổi PDF sang DOCX trong Python - Chỉ định các tùy chọn tải

Aspose.Words for Python cũng cho phép bạn tùy chỉnh tải các tài liệu PDF theo yêu cầu của bạn. Ví dụ: bạn chỉ có thể tải một loạt các trang trong PDF, bỏ qua hình ảnh, chỉ định mật khẩu cho các tệp được mã hóa, v.v. Để đặt các tùy chọn tải, lớp PdfLoadOptions được sử dụng. Sau đây là các bước để chỉ định các tùy chọn tải trong Python chuyển đổi PDF sang DOCX.

  • Tạo một thể hiện của lớp PdfLoadOptions.
  • Chỉ định định dạng tải bằng thuộc tính PdfLoadOptions.loadformat.
  • Đặt các tùy chọn như skippdfimages, pageindex, pagecount, v.v.
  • Sử dụng lớp Tài liệu để tải tệp PDF bằng cách chuyển đường dẫn của nó và PdfLoadOptions làm tham số.
  • Lưu tệp PDF dưới dạng tài liệu DOCX bằng phương thức Document.save().

Mẫu mã sau đây cho thấy cách chỉ định các tùy chọn tải trong chuyển đổi PDF sang DOCX bằng Python.

import aspose.words as aw

# tạo các tùy chọn tải PDF
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# đặt chỉ mục của trang bắt đầu và số lượng trang
loadOptions.page_index = 0
loadOptions.page_count = 1

# bỏ qua hình ảnh trong PDF
loadOptions.skip_pdf_images = True

# để đặt mật khẩu cho các tệp PDF được mã hóa
#loadOptions.password = "12345" 

# tải tệp PDF
doc = aw.Document("PDF.pdf", loadOptions)

# chuyển đổi PDF sang Word
doc.save("pdf-to-word.docx")

Chuyển đổi PDF sang DOCX trong Python - Nhận giấy phép miễn phí

Bạn có thể xin giấy phép tạm thời để sử dụng Aspose. AdWords for Python mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF sang DOCX bằng Python. Hơn nữa, bạn đã thấy cách chỉ định các tùy chọn tải khác nhau cho các tệp PDF động. Aspose. AdWords dành cho Python cung cấp một loạt các tính năng khác mà bạn có thể khám phá bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể đặt câu hỏi của mình qua diễn đàn của chúng tôi.

Xem thêm