Convertir PDF a Excel en Python

La conversión de PDF a Excel podría ser necesaria en varios casos, por ejemplo, para exportar datos tabulares en PDF a hojas de cálculo, automatizar tareas en Excel y utilizar otras funciones de manipulación de datos de Excel. Mientras trabaja con archivos PDF y Excel mediante programación, es posible que deba automatizar la conversión de PDF a Excel en Python. Para lograr eso, este artículo le brinda la solución más fácil para convertir archivos PDF a Excel en Python.

Además, aprenderá cómo personalizar la conversión de PDF a Excel usando diferentes opciones. Además, obtendrá un convertidor de PDF a Excel en línea gratuito que puede usar en cualquier lugar y en cualquier momento.

Conversor de PDF a Excel de Python

Para la conversión de PDF a Excel XLS/XLSX, usaremos Aspose.PDF for Python. La biblioteca está diseñada para crear, procesar y convertir archivos PDF desde aplicaciones de Python.

Utilice el siguiente comando pip para instalar la biblioteca desde PyPI.

pip install aspose-pdf

Convertir un PDF a Excel XLS en Python

Aspose.PDF for Python ha hecho que sea bastante más fácil convertir un PDF a Excel XLS. Solo necesita cargar el archivo PDF y guardarlo como XLS en la ubicación deseada. Puede seguir los pasos que se indican a continuación para convertir un archivo PDF a XLS en su aplicación de Python.

  • Cree una instancia de la clase Document e inicialícela con la ruta del archivo PDF de entrada.
  • Cree un objeto de la clase ExcelSaveOptions y establezca el formato de salida en XMLSPREADSHEET2003.
  • Llame al método Document.save() con el nombre del archivo XLS de salida y ExcelSaveOptions como argumentos.

El siguiente ejemplo de código muestra cómo convertir PDF a XLS en Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"

# Abrir archivo PDF
document = ap.Document(input_pdf)

# Crear y establecer opciones de guardado
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

# Guarde el archivo en formato MS Excel
document.save(output_pdf, save_option)

Archivo PDF de entrada

Cómo convertir PDF a XLS en Python

Hoja de Excel convertida

Conversión de PDF a Excel en Python

Guardar PDF como XLSX en Python

También puede convertir PDF a XLSX de forma similar. En este caso, no necesita especificar ningún formato de salida. Simplemente guarde el archivo de Excel convertido con la extensión .xlsx. Los siguientes son los pasos para convertir PDF a XLSX en Python.

  • Cargue el archivo PDF utilizando la clase Document.
  • Cree un objeto de la clase ExcelSaveOptions.
  • Llame al método Document.save() y pase el nombre del archivo de salida y el objeto DocSaveOptions como argumentos.

El siguiente ejemplo de código muestra cómo convertir PDF a XLSX en Python.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"

# Abrir documento PDF
document = ap.Document(input_pdf)

# Crear opciones de guardado
save_option = ap.ExcelSaveOptions()

# Guarde el archivo en XLSX
document.save(output_pdf, save_option)

Personalice la conversión de PDF a Excel

También puede personalizar la conversión de PDF a Excel usando diferentes opciones. Las siguientes secciones muestran cómo usar algunas de las opciones disponibles.

PDF a Excel con la primera columna en blanco

Esta opción se usa para agregar una primera columna en blanco en la hoja de Excel convertida. Para establecer esta opción, utilizará la clase ExcelSaveOptions. El siguiente ejemplo de código muestra cómo usar esta opción.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"

# Abrir documento PDF
document = ap.Document(input_pdf)

# Crear opciones de guardado
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True

# Guarde el archivo en formato MS Excel
document.save(output_pdf, save_option)

Minimizar el número de hojas de trabajo

De forma predeterminada, cada página en PDF se convierte en una hoja en el archivo de Excel. Sin embargo, puede anular este comportamiento para minimizar el número de hojas en el archivo de Excel. Para esto, debe establecer la propiedad ExcelSaveOptions.minimizethenumberofworksheets en True. El siguiente ejemplo de código muestra cómo minimizar la cantidad de hojas en la conversión de PDF a Excel.

import aspose.pdf as ap

input_pdf = DIR_INPUT + "multipage.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"

# Abrir documento PDF
document = ap.Document(input_pdf)

# Crear opciones de guardado
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True

# Guarde el archivo en formato MS Excel
document.save(output_pdf, save_option)

Conversor en línea de PDF a Excel

Si desea convertir archivos PDF a formato Excel en línea, utilice nuestro convertidor de PDF a Excel gratuito y de alta calidad, que se desarrolla utilizando la biblioteca Aspose.PDF.

Convertidor gratuito de PDF a XLS

Puede obtener una licencia gratuita para convertir archivos PDF a formato Excel sin limitaciones de evaluación.

Explore el convertidor de PDF a Excel

Puede obtener más información sobre nuestra biblioteca PDF de Python utilizando la documentación. Además, no dude en informarnos sobre sus consultas a través de nuestro foro.

Conclusión

En este artículo, ha aprendido cómo convertir archivos PDF a Excel en Python. Hemos cubierto explícitamente la conversión de PDF a XLS y XLSX. Además, ha visto cómo personalizar la conversión de PDF a Excel usando diferentes opciones. Además, al final se proporciona un convertidor gratuito de PDF a Excel en línea que puede usar para convertir tantos archivos PDF como desee.

Ver también