Chuyển PDF sang Excel bằng Python

Có thể yêu cầu chuyển đổi PDF sang Excel trong nhiều trường hợp, chẳng hạn như để xuất dữ liệu dạng bảng trong PDF sang bảng tính, tự động hóa các tác vụ trong Excel và sử dụng các tính năng thao tác dữ liệu khác của Excel. Trong khi làm việc với các tệp PDF và Excel theo chương trình, bạn có thể cần tự động chuyển đổi PDF sang Excel bằng Python. Để thực hiện điều đó, bài viết này cung cấp cho bạn giải pháp đơn giản nhất để chuyển đổi tệp PDF sang Excel bằng Python.

Ngoài ra, bạn sẽ học cách tùy chỉnh chuyển đổi PDF sang Excel bằng các tùy chọn khác nhau. Ngoài ra, bạn sẽ nhận được một công cụ chuyển đổi PDF sang Excel trực tuyến miễn phí mà bạn có thể sử dụng mọi lúc, mọi nơi.

Trình chuyển đổi Python PDF sang Excel

Để chuyển đổi PDF sang Excel XLS/XLSX, chúng tôi sẽ sử dụng Aspose.PDF for Python. Thư viện được thiết kế để tạo, xử lý và chuyển đổi các tệp PDF từ bên trong các ứng dụng Python.

Sử dụng lệnh pip sau để cài đặt thư viện từ PyPI.

pip install aspose-pdf

Chuyển đổi PDF sang Excel XLS bằng Python

Aspose.PDF for Python giúp việc chuyển đổi PDF sang Excel XLS trở nên dễ dàng hơn. Bạn chỉ cần tải tệp PDF và lưu dưới dạng XLS vào vị trí mong muốn. Bạn có thể làm theo các bước dưới đây để chuyển đổi tệp PDF thành XLS trong ứng dụng Python của mình.

  • Tạo một thể hiện của lớp Tài liệu và khởi tạo nó với đường dẫn của tệp PDF đầu vào.
  • Tạo một đối tượng của lớp ExcelSaveOptions và đặt định dạng đầu ra thành XMLSPREADSHEET2003.
  • Gọi phương thức Document.save() với tên của tệp XLS đầu ra và ExcelSaveOptions làm đối số.

Mẫu mã sau đây cho biết cách chuyển đổi PDF sang XLS bằng Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"

# Mở tệp PDF
document = ap.Document(input_pdf)

# Tạo và đặt tùy chọn lưu
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

# Lưu tệp thành định dạng MS Excel
document.save(output_pdf, save_option)

Nhập tệp PDF

Cách chuyển đổi PDF sang XLS bằng Python

Bảng Excel đã chuyển đổi

Chuyển đổi PDF sang Excel trong Python

Lưu PDF dưới dạng XLSX trong Python

Bạn cũng có thể chuyển đổi PDF sang XLSX theo cách tương tự. Trong trường hợp này, bạn không cần chỉ định bất kỳ định dạng đầu ra nào. Chỉ cần lưu tệp Excel đã chuyển đổi với phần mở rộng .xlsx. Sau đây là các bước để chuyển đổi PDF sang XLSX bằng Python.

  • Tải tệp PDF bằng lớp Tài liệu.
  • Tạo một đối tượng của lớp ExcelSaveOptions.
  • Gọi phương thức Document.save() và chuyển tên tệp đầu ra và đối tượng DocSaveOptions làm đối số.

Mẫu mã sau đây cho biết cách chuyển đổi PDF sang XLSX bằng Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"

# Mở tài liệu PDF
document = ap.Document(input_pdf)

# Tạo tùy chọn lưu
save_option = ap.ExcelSaveOptions()

# Lưu tệp vào XLSX
document.save(output_pdf, save_option)

Tùy chỉnh chuyển đổi PDF sang Excel

Bạn cũng có thể tùy chỉnh chuyển đổi PDF sang Excel bằng các tùy chọn khác nhau. Các phần sau đây trình bày cách sử dụng một số tùy chọn có sẵn.

PDF sang Excel với cột đầu tiên trống

Tùy chọn này được sử dụng để thêm một cột trống đầu tiên trong trang tính Excel đã chuyển đổi. Để thiết lập tùy chọn này, bạn sẽ sử dụng lớp ExcelSaveOptions. Mẫu mã sau đây cho biết cách sử dụng tùy chọn này.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"

# Mở tài liệu PDF
document = ap.Document(input_pdf)

# Tạo tùy chọn lưu
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True

# Lưu tệp thành định dạng MS Excel
document.save(output_pdf, save_option)

Giảm thiểu số lượng trang tính

Theo mặc định, mỗi trang trong PDF được chuyển đổi thành một trang tính trong tệp Excel. Tuy nhiên, bạn có thể ghi đè hành vi này để giảm thiểu số lượng trang tính trong tệp Excel. Đối với điều này, bạn cần đặt thuộc tính ExcelSaveOptions.minimizethenumberofworksheets thành True. Mẫu mã sau đây cho biết cách giảm thiểu số lượng trang tính trong chuyển đổi PDF sang Excel.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "multipage.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"

# Mở tài liệu PDF
document = ap.Document(input_pdf)

# Tạo tùy chọn lưu
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True

# Lưu tệp thành định dạng MS Excel
document.save(output_pdf, save_option)

Trình chuyển đổi PDF sang Excel trực tuyến

Nếu bạn muốn chuyển đổi trực tuyến các tệp PDF sang định dạng Excel, hãy sử dụng trình chuyển đổi PDF sang Excel miễn phí và chất lượng cao của chúng tôi, được phát triển bằng thư viện Aspose.PDF.

Chuyển đổi PDF sang XLS miễn phí

Bạn có thể lấy giấy phép miễn phí để chuyển đổi tệp PDF sang định dạng Excel mà không bị giới hạn đánh giá.

Khám phá Trình chuyển đổi PDF sang Excel

Bạn có thể tìm hiểu thêm về thư viện PDF Python của chúng tôi bằng cách sử dụng tài liệu. Ngoài ra, bạn có thể thoải mái cho chúng tôi biết về các truy vấn của mình thông qua diễn đàn của chúng tôi.

Phần kết luận

Trong bài viết này, bạn đã học cách chuyển đổi tệp PDF sang Excel bằng Python. Chúng tôi đã trình bày rõ ràng về việc chuyển đổi PDF sang XLS và XLSX. Ngoài ra, bạn đã thấy cách tùy chỉnh chuyển đổi PDF sang Excel bằng các tùy chọn khác nhau. Ngoài ra, một công cụ chuyển đổi PDF sang Excel trực tuyến miễn phí được cung cấp ở cuối mà bạn có thể sử dụng để chuyển đổi bao nhiêu tệp PDF tùy thích.

Xem thêm