estrarre immagini da pdf in python

Le immagini sono comunemente utilizzate nei documenti PDF insieme al testo, il che rende il contenuto più accattivante ed elaborato. Durante l’elaborazione e l’analisi dei documenti PDF, potrebbe essere necessario estrarre anche le immagini. Pertanto, in questo articolo, dimostreremo come elaborare file PDF ed estrarre immagini a livello di codice in Python. La guida dettagliata e l’esempio di codice dimostreranno l’intero processo di estrazione dell’immagine.

Libreria Python per estrarre immagini da PDF

Per estrarre immagini da un file PDF, utilizzeremo Aspose.Words for Python. È una libreria potente e ricca di funzionalità per creare e manipolare documenti di testo inclusi PDF e DOCX. Puoi installare la libreria da PyPI usando il seguente comando pip.

> pip install aspose-words

Passaggi per estrarre immagini da PDF

Aspose.Words for Python ti consente di estrarre le immagini da un file PDF in pochi semplici passaggi. Quello che segue è il flusso di lavoro su come estrarre immagini da un PDF usando Aspose.Words for Python.

  • Carica il file PDF dalla posizione desiderata.
  • Converti PDF in formato DOCX.
  • Elabora la versione DOCX del PDF ed estrai le immagini
  • Salva ogni immagine come file nella posizione desiderata.

La sezione seguente mostra come trasformare i passaggi sopra menzionati in codice Python ed estrarre immagini da un PDF.

Estrai immagini da PDF in Python

Nel processo di estrazione dell’immagine, convertiremo prima il file PDF in formato DOCX. In un file DOCX, le immagini sono rappresentate dai nodi di forma. Pertanto, elaboreremo ogni forma ed estrarremo l’immagine da essa.

Di seguito sono riportati i passaggi per estrarre immagini da un PDF in Python.

  • Innanzitutto, carica il file PDF utilizzando la classe Document.
  • Quindi, salva il PDF in formato DOCX e carica la versione DOCX del file PDF.
  • Recupera tutte le forme in un oggetto usando il metodo Document.getchildnodes(NodeType.SHAPE, True).
  • Scorri le forme ed esegui le seguenti operazioni per ciascun nodo di forma:
    • Trasmetti la forma nel tipo di forma usando il metodo asshape().
    • Usa il metodo Shape.hasimage() per verificare se la forma ha un’immagine.
    • Estrarre l’immagine dalla forma e salvarla utilizzando il metodo Shape.imagedata.save(string).

L’esempio di codice seguente mostra l’estrazione di immagini da un documento PDF in Python.

# Importa il modulo Aspose.Words for Python
import aspose.words as aw

# caricare il file PDF e convertirlo in formato Word DOCX
pdf = aw.Document("document.pdf")
pdf.save("pdf.docx")

# caricare la versione DOCX del PDF
doc = aw.Document("pdf.docx")

# recuperare tutte le forme
shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
imageIndex = 0

# scorrere le forme
for shape in shapes :
    shape = shape.as_shape()
    if (shape.has_image) :

        # imposta il nome del file immagine
        imageFileName = f"Image.ExportImages.{imageIndex}_{aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)}"

        # salva immagine
        shape.image_data.save(imageFileName)
        imageIndex += 1

Libreria di estrazione di immagini Python PDF - Ottieni una licenza gratuita

Puoi ottenere una licenza temporanea gratuita per estrarre immagini da PDF senza limitazioni di valutazione.

Conclusione

Durante l’analisi dei documenti PDF, è necessario estrarre anche le immagini insieme al testo. In questo articolo hai imparato come estrarre immagini da un PDF in Python. Puoi semplicemente installare Aspose.Words for Python e integrare l’estrazione di immagini nelle tue applicazioni.

Esplora la libreria di estrazione di immagini PDF di Aspose

Aspose.Words for Python offre una gamma di altre funzionalità per manipolare documenti di testo. Puoi visitare la documentazione per saperne di più sulla biblioteca. In caso di domande, non esitare a farcelo sapere tramite il nostro forum.

Guarda anche