Text aus PDF extrahieren C#

Das Format PDF wird häufig verwendet, um schreibgeschützte Dokumente zum Teilen und Drucken zu erstellen. Im Allgemeinen enthalten die PDF Dokumente Bilder zusammen mit Text und in bestimmten Fällen müssen Sie diese Bilder möglicherweise extrahieren, während Sie die PDFs analysieren. Dementsprechend behandelt dieser Artikel das programmgesteuerte Extrahieren von Bildern aus PDF in C# .NET.

C# .NET API zum Extrahieren von Bildern aus PDF – kostenloser Download

Um Bilder aus PDF zu extrahieren, verwenden wir Aspose.PDF for .NET. Es ist eine leistungsstarke API, mit der Sie eine breite Palette von PDF-Generierungs und -Manipulationsfunktionen implementieren können. Darüber hinaus können Sie das PDF analysieren und Bilder nahtlos extrahieren. Sie können die API entweder herunterladen oder sie mit NuGet installieren.

PM> Install-Package Aspose.PDF

Extrahieren von Bildern aus einem PDF in C#

Im Folgenden sind die Schritte zum Extrahieren von Bildern aus einer PDF Datei in C# aufgeführt.

  • Laden Sie das Dokument mit der Klasse Document.
  • Durchlaufen Sie die Seiten des PDF Dokuments mit der Sammlung Document.Pages.
  • Greifen Sie für jede Seite auf jedes XImage in der Sammlung Page.Resources.Images zu.
  • Erstellen Sie für jedes Bild ein FileStream objekt und speichern Sie es als JPEG, PNG usw.
  • Schließen Sie abschließend den FileStream.

Das folgende Codebeispiel zeigt, wie Bilder aus der PDF Datei extrahiert werden.

// Dokument öffnen
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Durch die Seiten blättern
foreach (var page in pdfDocument.Pages)
{
    // Durchlaufen Sie alle Bilder
    foreach (XImage image in page.Resources.Images)
    {
        // Dateistream für Bild erstellen
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Ausgabebild speichern
        image.Save(outputImage, ImageFormat.Jpeg);

        // Stream schließen
        outputImage.Close();

        imageCounter++;
    }

    // Zähler zurücksetzen
    imageCounter = 1;
}

Holen Sie sich eine kostenlose Lizenz

Sie können Aspose.PDF for .NET ohne Evaluierungseinschränkungen mit einer temporären Lizenz verwenden.

Fazit

In verschiedenen Fällen kann es erforderlich sein, die PDF Dateien zu analysieren und den Text oder die Bilder zu extrahieren. In diesem Artikel haben Sie gelernt, wie Sie Bilder aus PDF Dateien programmgesteuert in C# extrahieren. Weitere Informationen zur C# PDF API finden Sie in der Dokumentation. Außerdem können Sie Ihre Fragen in unserem Forum posten.

Siehe auch