Converti PDF in Word in Python

PDF è un formato di file comunemente utilizzato per la condivisione e la stampa di documenti. Tuttavia, in alcuni casi, i file PDF vengono convertiti in formato Word DOCX o DOC per analizzare il testo o rendere il documento modificabile. Per tali scenari, questo articolo illustra come convertire un file PDF in un documento Word utilizzando Python. Inoltre, imparerai come specificare diverse opzioni di caricamento per controllare il caricamento dei file PDF in modo dinamico.

Libreria del convertitore da PDF a Word Python

Per convertire i file PDF in formato Word, utilizzeremo Aspose.Words for Python. È una libreria Python ricca di funzionalità per creare, manipolare e convertire documenti Word. Inoltre, fornisce la conversione avanti e indietro di documenti Word e PDF con alta fedeltà. Aspose.Words per Python è ospitato su PyPI e può essere installato utilizzando il comando pip seguente.

pip install aspose-words

Converti un file PDF in Word DOCX in Python

Usando Aspose.Words per Python, puoi convertire un file PDF in formato Word DOCX in un paio di passaggi. Basta caricare il file PDF e salvarlo come documento Word. Di seguito sono riportati i passaggi per convertire un file PDF in formato DOCX in Python.

  • Carica il file PDF utilizzando la classe Document.
  • Salva il file PDF come documento Word utilizzando il metodo Document.save().

L’esempio di codice seguente mostra come convertire un file PDF in formato Word DOCX.

import aspose.words as aw

# load the PDF file
doc = aw.Document("PDF.pdf")

# convert PDF to Word DOCX format
doc.save("pdf-to-word.docx")

Specifica le opzioni di caricamento nella conversione da PDF a Word

Aspose.Words per Python ti consente anche di personalizzare il caricamento di documenti PDF secondo le tue esigenze. Ad esempio, puoi caricare solo un intervallo di pagine in PDF, saltare le immagini, specificare la password per i file crittografati, ecc. Per impostare le opzioni di caricamento, viene utilizzata la classe PdfLoadOptions. Di seguito sono riportati i passaggi per specificare le opzioni di caricamento nella conversione da PDF a Word.

  • Crea un’istanza della classe PdfLoadOptions.
  • Specificare il formato di caricamento utilizzando la proprietà PdfLoadOptions.loadformat.
  • Imposta opzioni come skippdfimages, pageindex, pagecount, ecc.
  • Utilizzare la classe Document per caricare il file PDF passando il suo percorso e PdfLoadOptions come parametri.
  • Salva il file PDF come documento Word utilizzando il metodo Document.save().

L’esempio di codice seguente mostra come specificare le opzioni di caricamento nella conversione da PDF a DOCX utilizzando Python.

import aspose.words as aw

# create PDF load options
loadOptions = aw.saving.PdfLoadOptions()
loadOptions.load_format = aw.LoadFormat.PDF 

# set index of the starting page and page count
loadOptions.page_index = 0
loadOptions.page_count = 1

# skip images in PDF
loadOptions.skip_pdf_images = True

# to set password for encrypted PDF files
#loadOptions.password = "12345" 

# load PDF file
doc = aw.Document("PDF.pdf", loadOptions)

# convert PDF to Word
doc.save("pdf-to-word.docx")

Ottieni una licenza API gratuita

Puoi ottenere una licenza temporanea per utilizzare Aspose.Words per Python senza limitazioni di valutazione.

Conclusione

In questo articolo, hai imparato come convertire i file PDF in formato Word DOCX o DOC in Python. Inoltre, hai visto come specificare dinamicamente diverse opzioni di caricamento per i file PDF. Aspose.Words per Python offre un’ampia gamma di altre funzionalità che puoi esplorare utilizzando la documentazione. Inoltre, puoi porre le tue domande tramite il nostro forum.

Guarda anche