Преобразование PDF в Excel в Python

Преобразование PDF в Excel может потребоваться в различных случаях, например, для экспорта табличных данных из PDF в электронные таблицы, автоматизации задач в Excel и использования других функций Excel для обработки данных. При программной работе с файлами PDF и Excel может потребоваться автоматизировать преобразование PDF в Excel в Python. Для этого в этой статье вы найдете самое простое решение для преобразования PDF-файлов в Excel в Python.

Кроме того, вы узнаете, как настроить преобразование PDF в Excel, используя различные параметры. Кроме того, вы получите бесплатный онлайн-конвертер PDF в Excel, который можно использовать где угодно и когда угодно.

Конвертер Python PDF в Excel

Для преобразования PDF в Excel XLS/XLSX мы будем использовать Aspose.PDF for Python. Библиотека предназначена для создания, обработки и преобразования PDF-файлов из приложений Python.

Используйте следующую команду pip для установки библиотеки из PyPI.

pip install aspose-pdf

Преобразование PDF в Excel XLS в Python

Aspose.PDF for Python значительно упростил преобразование PDF в Excel XLS. Вам нужно только загрузить файл PDF и сохранить его в формате XLS в нужном месте. Вы можете выполнить шаги, указанные ниже, чтобы преобразовать файл PDF в XLS в своем приложении Python.

  • Создайте экземпляр класса Document и инициализируйте его, указав путь к входному PDF-файлу.
  • Создайте объект класса ExcelSaveOptions и установите выходной формат XMLSPREADSHEET2003.
  • Вызовите метод Document.save() с именем выходного файла XLS и параметрами ExcelSaveOptions в качестве аргументов.

В следующем примере кода показано, как преобразовать PDF в XLS в Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"

# Открыть PDF-файл
document = ap.Document(input_pdf)

# Создание и настройка параметров сохранения
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

# Сохраните файл в формате MS Excel
document.save(output_pdf, save_option)

Входной файл PDF

Как конвертировать PDF в XLS в Python

Преобразованный лист Excel

Преобразование PDF в Excel в Python

Сохранить PDF как XLSX в Python

Вы также можете конвертировать PDF в XLSX аналогичным образом. В этом случае вам не нужно указывать какой-либо выходной формат. Просто сохраните преобразованный файл Excel с расширением .xlsx. Ниже приведены шаги для преобразования PDF в XLSX в Python.

  • Загрузите файл PDF, используя класс Document.
  • Создайте объект класса ExcelSaveOptions.
  • Вызовите метод Document.save() и передайте имя выходного файла и объект DocSaveOptions в качестве аргументов.

В следующем примере кода показано, как преобразовать PDF в XLSX в Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"

# Открыть PDF-документ
document = ap.Document(input_pdf)

# Создать параметры сохранения
save_option = ap.ExcelSaveOptions()

# Сохраните файл в формате XLSX.
document.save(output_pdf, save_option)

Настройте преобразование PDF в Excel

Вы также можете настроить преобразование PDF в Excel, используя различные параметры. В следующих разделах показано, как использовать некоторые доступные параметры.

PDF в Excel с пустой первой колонкой

Этот параметр используется для добавления пустого первого столбца в преобразованный лист Excel. Чтобы установить этот параметр, вы будете использовать класс ExcelSaveOptions. В следующем примере кода показано, как использовать этот параметр.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"

# Открыть PDF-документ
document = ap.Document(input_pdf)

# Создать параметры сохранения
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True

# Сохраните файл в формате MS Excel
document.save(output_pdf, save_option)

Минимизируйте количество рабочих листов

По умолчанию каждая страница в PDF преобразуется в лист в файле Excel. Однако вы можете переопределить это поведение, чтобы свести к минимуму количество листов в файле Excel. Для этого необходимо установить для свойства ExcelSaveOptions.minimizethenumberofworksheets значение True. В следующем примере кода показано, как минимизировать количество листов при преобразовании PDF в Excel.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "multipage.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"

# Открыть PDF-документ
document = ap.Document(input_pdf)

# Создать параметры сохранения
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True

# Сохраните файл в формате MS Excel
document.save(output_pdf, save_option)

Онлайн-конвертер PDF в Excel

Если вы хотите конвертировать PDF-файлы в формат Excel онлайн, воспользуйтесь нашим высококачественным и бесплатным конвертером PDF в Excel, который разработан с использованием библиотеки Aspose.PDF.

Бесплатный конвертер PDF в XLS

Вы можете получить бесплатную лицензию для преобразования PDF-файлов в формат Excel без ограничений пробной версии.

Исследуйте конвертер PDF в Excel

Вы можете узнать больше о нашей библиотеке Python PDF, используя документацию. Кроме того, вы можете сообщить нам о своих вопросах через наш форум.

Заключение

В этой статье вы узнали, как конвертировать PDF-файлы в Excel в Python. Мы подробно рассмотрели преобразование PDF в XLS и XLSX. Кроме того, вы увидели, как настроить преобразование PDF в Excel, используя различные параметры. Кроме того, в конце предоставляется бесплатный онлайн-конвертер PDF в Excel, который вы можете использовать для преобразования любого количества PDF-файлов.

Смотрите также