Convertir PDF en Word en Python

PDF est un format de fichier couramment utilisé pour partager et imprimer des documents. Cependant, dans certains cas, les fichiers PDF sont convertis au format Word DOCX ou DOC pour analyser le texte ou rendre le document modifiable. Pour de tels scénarios, cet article explique comment convertir un fichier PDF en un document Word à l’aide de Python. De plus, vous apprendrez à spécifier différentes options de chargement pour contrôler dynamiquement le chargement des fichiers PDF.

Bibliothèque de conversion Python PDF vers Word

Afin de convertir des fichiers PDF au format Word, nous utiliserons Aspose.Words for Python. Il s’agit d’une bibliothèque Python riche en fonctionnalités pour créer, manipuler et convertir des documents Word. De plus, il permet la conversion aller-retour de documents Word et PDF avec une haute fidélité. Aspose.Words for Python est hébergé sur PyPI et peut être installé à l’aide de la commande pip suivante.

pip install aspose-words

Convertir un fichier PDF en Word DOCX en Python

En utilisant Aspose.Words for Python, vous pouvez convertir un fichier PDF au format Word DOCX en quelques étapes. Chargez simplement le fichier PDF et enregistrez-le en tant que document Word. Voici les étapes pour convertir un fichier PDF au format DOCX en Python.

  • Chargez le fichier PDF à l’aide de la classe Document.
  • Enregistrez le fichier PDF en tant que document Word à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment convertir un fichier PDF au format Word DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Spécifier les options de chargement dans la conversion PDF vers Word

Aspose.Words for Python vous permet également de personnaliser le chargement des documents PDF selon vos besoins. Par exemple, vous pouvez charger uniquement une plage de pages dans un PDF, ignorer des images, spécifier un mot de passe pour les fichiers cryptés, etc. Pour définir les options de chargement, la classe PdfLoadOptions est utilisée. Voici les étapes pour spécifier les options de chargement dans la conversion PDF vers Word.

  • Créez une instance de la classe PdfLoadOptions.
  • Spécifiez le format de chargement à l’aide de la propriété PdfLoadOptions.loadformat.
  • Définissez des options telles que skippdfimages, pageindex, pagecount, etc.
  • Utilisez la classe Document pour charger le fichier PDF en passant son chemin et PdfLoadOptions comme paramètres.
  • Enregistrez le fichier PDF en tant que document Word à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment spécifier les options de chargement dans la conversion PDF vers DOCX à l’aide de Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Obtenez une licence API gratuite

Vous pouvez obtenir une licence temporaire afin d’utiliser Aspose.Words for Python sans limitations d’évaluation.

Conclusion

Dans cet article, vous avez appris à convertir des fichiers PDF au format Word DOCX ou DOC en Python. De plus, vous avez vu comment spécifier dynamiquement différentes options de chargement pour les fichiers PDF. Aspose.Words for Python fournit un large éventail d’autres fonctionnalités que vous pouvez explorer à l’aide de la documentation. Vous pouvez également poser vos questions via notre forum.

Voir également