Convertir PDF a Word en Python

PDF es un formato de archivo comúnmente utilizado para compartir e imprimir documentos. Sin embargo, en ciertos casos, los archivos PDF se convierten al formato de Word DOCX o DOC para analizar el texto o hacer que el documento sea editable. Para tales escenarios, este artículo cubre cómo convertir un archivo PDF a un documento de Word usando Python. Además, aprenderá a especificar diferentes opciones de carga para controlar la carga de archivos PDF de forma dinámica.

Biblioteca de conversión de PDF a Word de Python

Para convertir archivos PDF a formato Word, utilizaremos Aspose.Words for Python. Es una biblioteca de Python rica en funciones para crear, manipular y convertir documentos de Word. Además, proporciona conversión de ida y vuelta de documentos de Word y PDF con alta fidelidad. Aspose.Words for Python está alojado en PyPI y se puede instalar con el siguiente comando pip.

pip install aspose-words

Convierta un archivo PDF a Word DOCX en Python

Usando Aspose.Words for Python, puede convertir un archivo PDF a formato Word DOCX en un par de pasos. Simplemente cargue el archivo PDF y guárdelo como un documento de Word. Los siguientes son los pasos para convertir un archivo PDF a formato DOCX en Python.

  • Cargue el archivo PDF utilizando la clase Document.
  • Guarde el archivo PDF como documento de Word utilizando el método Document.save().

El siguiente ejemplo de código muestra cómo convertir un archivo PDF al formato Word DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Especifique las opciones de carga en la conversión de PDF a Word

Aspose.Words for Python también le permite personalizar la carga de documentos PDF según sus requisitos. Por ejemplo, puede cargar solo un rango de páginas en PDF, omitir imágenes, especificar una contraseña para archivos cifrados, etc. Para configurar las opciones de carga, se utiliza la clase PdfLoadOptions. Los siguientes son los pasos para especificar las opciones de carga en la conversión de PDF a Word.

  • Cree una instancia de la clase PdfLoadOptions.
  • Especifique el formato de carga mediante la propiedad PdfLoadOptions.loadformat.
  • Establece opciones como skippdfimages, pageindex, pagecount, etc.
  • Use la clase Document para cargar el archivo PDF pasando su ruta y PdfLoadOptions como parámetros.
  • Guarde el archivo PDF como documento de Word utilizando el método Document.save().

El siguiente ejemplo de código muestra cómo especificar las opciones de carga en la conversión de PDF a DOCX mediante Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Obtenga una licencia de API gratuita

Puede obtener una licencia temporal para usar Aspose.Words for Python sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido cómo convertir archivos PDF a formato Word DOCX o DOC en Python. Además, ha visto cómo especificar diferentes opciones de carga para los archivos PDF de forma dinámica. Aspose.Words for Python proporciona una amplia gama de otras características que puede explorar utilizando la documentación. Además, puede realizar sus consultas a través de nuestro foro.

Ver también