Estrai testo da PDF C#

Il formato PDF è ampiamente utilizzato per creare documenti di sola lettura per la condivisione e la stampa. In genere, i documenti PDF contengono immagini insieme al testo e, in alcuni casi, potrebbe essere necessario estrarre queste immagini durante l’analisi dei PDF. In base a ciò, questo articolo illustra come estrarre immagini da PDF a livello di codice in C# .NET.

API C# .NET per estrarre immagini da PDF - Download gratuito

Per estrarre immagini dal PDF, utilizzeremo Aspose.PDF for .NET. È una potente API che ti consente di implementare un’ampia gamma di funzioni di generazione e manipolazione di PDF. Inoltre, ti consente di analizzare il PDF ed estrarre le immagini senza problemi. Puoi scaricare l’API o installarla utilizzando NuGet.

PM> Install-Package Aspose.PDF

Estrazione di immagini da un PDF in C#

Di seguito sono riportati i passaggi per estrarre le immagini da un PDF in C#.

  • Carica il documento utilizzando la classe Document.
  • Scorri le pagine del documento PDF utilizzando la raccolta Document.Pages.
  • Per ogni pagina, accedi a ogni XImage nella raccolta Page.Resources.Images.
  • Crea un oggetto FileStream per ogni immagine e salvalo come JPEG, PNG, ecc.
  • Infine, chiudi FileStream.

L’esempio di codice seguente mostra come estrarre immagini dal PDF.

// Apri documento
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Scorri le pagine
foreach (var page in pdfDocument.Pages)
{
    // Passa in rassegna tutte le immagini
    foreach (XImage image in page.Resources.Images)
    {
        // Crea flusso di file per l'immagine
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Salva immagine di output
        image.Save(outputImage, ImageFormat.Jpeg);

        // Chiudi flusso
        outputImage.Close();

        imageCounter++;
    }

    // Reimposta contatore
    imageCounter = 1;
}

Ottieni una licenza gratuita

È possibile utilizzare Aspose.PDF per .NET senza limitazioni di valutazione utilizzando una licenza temporanea.

Conclusione

L’analisi dei file PDF e l’estrazione del testo o delle immagini potrebbero essere necessarie in vari casi. In questo articolo, hai imparato come estrarre immagini da file PDF a livello di codice in C#. Puoi esplorare di più sull’API C# PDF utilizzando la documentazione. Inoltre, puoi pubblicare le tue domande sul nostro forum.

Guarda anche