Chuyển đổi PDF sang Word bằng Python

PDF là định dạng tệp thường được sử dụng để chia sẻ và in tài liệu. Tuy nhiên, trong một số trường hợp nhất định, tệp PDF được chuyển đổi sang định dạng Word DOCX hoặc DOC để phân tích cú pháp văn bản hoặc làm cho tài liệu có thể chỉnh sửa được. Đối với các trường hợp như vậy, bài viết này trình bày cách chuyển đổi định dạng PDF sang Word bằng Python. Hơn nữa, bạn sẽ học cách chỉ định các tùy chọn tải khác nhau để kiểm soát chuyển đổi PDF sang Word.

Python PDF to Word Converter - Tải xuống miễn phí

Để chuyển đổi tệp PDF sang định dạng Word, chúng tôi sẽ sử dụng Aspose.Words dành cho Python. Đây là một thư viện Python giàu tính năng để tạo, thao tác và chuyển đổi tài liệu Word. Hơn nữa, nó cung cấp khả năng chuyển đổi qua lại các tài liệu Word và PDF với độ trung thực cao. Aspose. AdWords dành cho Python được lưu trữ trên PyPI và có thể được cài đặt bằng lệnh pip sau.

pip install aspose-words

Các bước dễ dàng để chuyển đổi PDF sang Word trong Python

Sử dụng Aspose.Words dành cho Python, bạn có thể chuyển đổi tệp PDF sang định dạng Word trong vòng một vài bước. Chỉ cần tải tệp PDF và lưu dưới dạng tài liệu Word. Các bước sau minh họa cách lưu PDF trong tài liệu Word bằng Python.

  • Tải tài liệu PDF từ đĩa.
  • Lưu tài liệu Word dưới dạng PDF vào vị trí mong muốn.

Và đó là nó. Các phần sau đây trình bày cách chuyển các bước này thành mã Python để chuyển đổi định dạng PDF sang Word.

Lưu PDF dưới dạng định dạng Word trong Python

Sau đây là các bước để lưu tệp PDF ở định dạng Word trong Python.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Lưu tệp PDF dưới dạng tài liệu Word bằng phương thức Document.save().

Mẫu mã sau đây cho thấy cách chuyển đổi tệp PDF sang định dạng Word.

import aspose.words as aw

# tải tệp PDF
doc = aw.Document("PDF.pdf")

# chuyển đổi định dạng PDF sang Word DOCX
doc.save("pdf-to-word.docx")

Python Chuyển đổi PDF sang Word với các tùy chọn tải

Aspose.Words for Python cũng cho phép bạn tùy chỉnh tải các tài liệu PDF theo yêu cầu của bạn. Ví dụ, bạn chỉ có thể tải một loạt các trang trong PDF, bỏ qua hình ảnh, chỉ định mật khẩu cho các tệp được mã hóa, v.v. Để đặt các tùy chọn tải, lớp PdfLoadOptions được sử dụng. Sau đây là các bước để chỉ định các tùy chọn tải trong chuyển đổi PDF sang Word.

  • Tạo một thể hiện của lớp PdfLoadOptions.
  • Chỉ định định dạng tải bằng thuộc tính PdfLoadOptions.loadformat.
  • Đặt các tùy chọn như skippdfimages, pageindex, pagecount, v.v.
  • Sử dụng lớp Tài liệu để tải tệp PDF bằng cách chuyển đường dẫn của nó và PdfLoadOptions làm tham số.
  • Lưu tệp PDF dưới dạng tài liệu Word bằng phương thức Document.save().

Mẫu mã sau đây cho thấy cách chỉ định các tùy chọn tải trong chuyển đổi PDF sang Word bằng Python.

import aspose.words as aw

# tạo các tùy chọn tải PDF
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# đặt chỉ mục của trang bắt đầu và số lượng trang
loadOptions.page_index = 0
loadOptions.page_count = 1

# bỏ qua hình ảnh trong PDF
loadOptions.skip_pdf_images = True

# để đặt mật khẩu cho các tệp PDF được mã hóa
#loadOptions.password = "12345" 

# tải tệp PDF
doc = aw.Document("PDF.pdf", loadOptions)

# chuyển đổi PDF sang Word
doc.save("pdf-to-word.docx")

Thư viện PDF sang Word trong Python - Nhận giấy phép miễn phí

Bạn có thể xin giấy phép tạm thời để sử dụng Aspose.Words dành cho Python mà không có giới hạn đánh giá.

Sự kết luận

Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF sang định dạng Word trong Python. Hơn nữa, bạn đã thấy cách chỉ định các tùy chọn tải khác nhau cho các tệp PDF động. Aspose. AdWords dành cho Python cung cấp một loạt các tính năng khác mà bạn có thể khám phá bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể đặt câu hỏi của mình qua diễn đàn của chúng tôi.

Xem thêm

Chuyển đổi tệp Word sang PDF bằng PythonTạo tài liệu Word bằng Python mà không cần MS OfficePNG sang Word trong C# .NET
JPG sang Word trong C# .NETHình ảnh sang Word trong C#Chuyển từ sang HTML trong C#
Word DOCX sang Markdown trong JavaTrích xuất hình ảnh từ Word DOC trong JavaWord DOC sang Markdown trong Java
Word DOC DOCX sang Markdown trong C#Trích xuất văn bản từ tài liệu Word trong JavaHợp nhất tài liệu MS Word bằng C# .NET
Word DOC sang PNG, JPEG, BMP, GIF hoặc TIFF trong C#Word DOC sang PNG, JPEG, BMP, GIF hoặc TIFF trong JavaChuyển đổi tài liệu Word sang EPUB trong C#
Chuyển đổi tài liệu Word sang EPUB trong JavaChuyển đổi tài liệu Word sang EPUB bằng PythonChuyển RTF sang PDF bằng Python
Chuyển đổi tệp TXT sang PDF trong C#Chuyển đổi tệp TXT sang PDF trong JavaChuyển đổi tệp TXT sang PDF bằng Python