Convertir PDF en Word en Python

PDF est un format de fichier couramment utilisé pour partager et imprimer des documents. Cependant, dans certains cas, les fichiers PDF sont convertis au format Word DOCX pour analyser le texte ou rendre le document modifiable. Pour de tels scénarios, cet article explique comment convertir un PDF en DOCX en Python. De plus, vous apprendrez à spécifier différentes options de chargement pour contrôler dynamiquement le chargement des fichiers PDF.

Convertisseur Python PDF en DOCX - Télécharger gratuit

Afin de convertir des fichiers PDF au format DOCX, nous utiliserons Aspose.Words for Python. Il s’agit d’une bibliothèque Python riche en fonctionnalités pour créer, manipuler et convertir des documents Word. De plus, il permet la conversion aller-retour de documents Word et PDF avec une haute fidélité. Aspose.Words for Python est hébergé sur PyPI et peut être installé à l’aide de la commande pip suivante.

pip install aspose-words

Convertir PDF en DOCX en Python

En utilisant Aspose.Words for Python, vous pouvez convertir un fichier PDF en DOCX en quelques étapes. Chargez simplement le fichier PDF et enregistrez-le en tant que document DOCX. Voici les étapes pour convertir un PDF en DOCX en Python.

  • Chargez le fichier PDF à l’aide de la classe Document.
  • Enregistrez le fichier PDF en tant que document DOCX à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment convertir un fichier PDF au format DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Conversion Python PDF en DOCX - Spécifier les options de chargement

Aspose.Words for Python vous permet également de personnaliser le chargement des documents PDF selon vos besoins. Par exemple, vous pouvez charger uniquement une plage de pages dans un PDF, ignorer des images, spécifier un mot de passe pour les fichiers cryptés, etc. Pour définir les options de chargement, la classe PdfLoadOptions est utilisée. Voici les étapes pour spécifier les options de chargement dans la conversion Python PDF vers DOCX.

  • Créez une instance de la classe PdfLoadOptions.
  • Spécifiez le format de chargement à l’aide de la propriété PdfLoadOptions.load_format.
  • Définissez des options telles que skip_pdf_images, page_index, page_count, etc.
  • Utilisez la classe Document pour charger le fichier PDF en passant son chemin et PdfLoadOptions comme paramètres.
  • Enregistrez le fichier PDF en tant que document DOCX à l’aide de la méthode Document.save().

L’exemple de code suivant montre comment spécifier les options de chargement dans la conversion PDF vers DOCX en Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Convertisseur Python PDF en DOCX - Obtenez une licence gratuite

Vous pouvez obtenir une licence temporaire afin d’utiliser Aspose.Words for Python sans limitations d’évaluation.

Conclusion

Dans cet article, vous avez appris à convertir des fichiers PDF en DOCX en Python. De plus, vous avez vu comment spécifier dynamiquement différentes options de chargement pour les fichiers PDF. Aspose.Words for Python fournit un large éventail d’autres fonctionnalités que vous pouvez explorer à l’aide de la documentation. Vous pouvez également poser vos questions via notre forum.

Voir également