Convertir PDF a Word en Python

PDF es un formato de archivo comúnmente utilizado para compartir e imprimir documentos. Sin embargo, en ciertos casos, los archivos PDF se convierten a formato Word DOCX para analizar el texto o hacer que el documento sea editable. Para tales escenarios, este artículo cubre cómo convertir PDF a DOCX en Python. Además, aprenderá a especificar diferentes opciones de carga para controlar la carga de archivos PDF de forma dinámica.

Python PDF to DOCX Converter - Descarga gratuita

Para convertir archivos PDF a formato DOCX, utilizaremos Aspose.Words for Python. Es una biblioteca de Python rica en funciones para crear, manipular y convertir documentos de Word. Además, proporciona conversión de ida y vuelta de documentos de Word y PDF con alta fidelidad. Aspose.Words for Python está alojado en PyPI y se puede instalar con el siguiente comando pip.

pip install aspose-words

Convertir PDF a DOCX en Python

Usando Aspose.Words for Python, puede convertir un archivo PDF a DOCX en un par de pasos. Simplemente cargue el archivo PDF y guárdelo como un documento DOCX. Los siguientes son los pasos para convertir un PDF a DOCX en Python.

  • Cargue el archivo PDF utilizando la clase Document.
  • Guarde el archivo PDF como documento DOCX utilizando el método Document.save().

El siguiente ejemplo de código muestra cómo convertir un archivo PDF a formato DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Conversión de PDF a DOCX de Python: especifique las opciones de carga

Aspose.Words for Python también le permite personalizar la carga de documentos PDF según sus requisitos. Por ejemplo, puede cargar solo un rango de páginas en PDF, omitir imágenes, especificar una contraseña para archivos cifrados, etc. Para configurar las opciones de carga, se utiliza la clase PdfLoadOptions. Los siguientes son los pasos para especificar las opciones de carga en la conversión de Python PDF a DOCX.

  • Cree una instancia de la clase PdfLoadOptions.
  • Especifique el formato de carga mediante la propiedad PdfLoadOptions.load_format.
  • Establece opciones como skip_pdf_images, page_index, page_count, etc.
  • Use la clase Document para cargar el archivo PDF pasando su ruta y PdfLoadOptions como parámetros.
  • Guarde el archivo PDF como documento DOCX utilizando el método Document.save().

El siguiente ejemplo de código muestra cómo especificar las opciones de carga en la conversión de PDF a DOCX en Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Python PDF to DOCX Converter - Obtenga una licencia gratuita

Puede obtener una licencia temporal para usar Aspose.Words for Python sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido cómo convertir archivos PDF a DOCX en Python. Además, ha visto cómo especificar diferentes opciones de carga para los archivos PDF de forma dinámica. Aspose.Words for Python proporciona una amplia gama de otras características que puede explorar utilizando la documentación. Además, puede realizar sus consultas a través de nuestro foro.

Ver también