Extraire le texte d'un PDF C#

Le format PDF est largement utilisé pour créer des documents en lecture seule à partager et à imprimer. Généralement, les documents PDF contiennent des images avec du texte et dans certains cas, vous devrez peut-être extraire ces images lors de l’analyse des PDF. Conformément à cela, cet article explique comment extraire des images d’un PDF par programmation dans C# .NET.

API C# .NET pour extraire des images d’un PDF - Téléchargement gratuit

Afin d’extraire des images d’un PDF, nous utiliserons Aspose.PDF for .NET. Il s’agit d’une API puissante qui vous permet d’implémenter un large éventail de fonctionnalités de génération et de manipulation de PDF. De plus, il vous permet d’analyser le PDF et d’extraire des images de manière transparente. Vous pouvez soit télécharger l’API ou l’installer à l’aide de NuGet.

PM> Install-Package Aspose.PDF

Extraire des images d’un PDF en C#

Voici les étapes pour extraire des images d’un PDF en C#.

  • Chargez le document à l’aide de la classe Document.
  • Parcourez les pages du document PDF à l’aide de la collection Document.Pages.
  • Pour chaque page, accédez à chaque XImage dans la collection Page.Resources.Images.
  • Créez un objet FileStream pour chaque image et enregistrez-le au format JPEG, PNG, etc.
  • Enfin, fermez le FileStream.

L’exemple de code suivant montre comment extraire des images du PDF.

// Ouvrir le document
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Parcourir les pages en boucle
foreach (var page in pdfDocument.Pages)
{
    // Boucle sur toutes les images
    foreach (XImage image in page.Resources.Images)
    {
        // Créer un flux de fichiers pour l'image
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Enregistrer l'image de sortie
        image.Save(outputImage, ImageFormat.Jpeg);

        // Fermer le flux
        outputImage.Close();

        imageCounter++;
    }

    // Réinitialiser le compteur
    imageCounter = 1;
}

Obtenez une licence gratuite

Vous pouvez utiliser Aspose.PDF for .NET sans limitation d’évaluation à l’aide d’une licence temporaire.

Conclusion

L’analyse des fichiers PDF et l’extraction du texte ou des images peuvent être nécessaires dans divers cas. Dans cet article, vous avez appris à extraire des images de fichiers PDF par programmation en C#. Vous pouvez en savoir plus sur l’API C# PDF à l’aide de la documentation. Vous pouvez également poster vos questions sur notre forum.

Voir également