Wyodrębnij tekst z PDF C#

Format PDF jest szeroko stosowany do tworzenia dokumentów tylko do odczytu, które można udostępniać i drukować. Ogólnie dokumenty PDF zawierają obrazy wraz z tekstem iw niektórych przypadkach może być konieczne wyodrębnienie tych obrazów podczas analizowania plików PDF. Zgodnie z tym w tym artykule opisano, jak programowo wyodrębnić obrazy z pliku PDF w języku C# .NET.

C# .NET API do wyodrębniania obrazów z plików PDF — bezpłatne pobieranie

Aby wyodrębnić obrazy z PDF, użyjemy Aspose.PDF for .NET. Jest to potężny interfejs API, który umożliwia implementację szerokiej gamy funkcji generowania i manipulowania plikami PDF. Ponadto umożliwia analizowanie pliku PDF i bezproblemowe wyodrębnianie obrazów. Możesz pobrać interfejs API lub zainstalować go za pomocą NuGet.

PM> Install-Package Aspose.PDF

Wyodrębnianie obrazów z pliku PDF w języku C#

Poniżej przedstawiono kroki, aby wyodrębnić obrazy z pliku PDF w języku C#.

  • Załaduj dokument, używając klasy Document.
  • Przeglądaj strony dokumentu PDF za pomocą kolekcji Document.Pages.
  • Dla każdej strony uzyskaj dostęp do każdego XImage w kolekcji Page.Resources.Images.
  • Utwórz obiekt FileStream dla każdego obrazu i zapisz go jako JPEG, PNG itp.
  • Na koniec zamknij plik FileStream.

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku PDF.

// Otwórz dokument
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Zapętlaj strony
foreach (var page in pdfDocument.Pages)
{
    // Przejrzyj wszystkie obrazy w pętli
    foreach (XImage image in page.Resources.Images)
    {
        // Utwórz strumień plików dla obrazu
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Zapisz obraz wyjściowy
        image.Save(outputImage, ImageFormat.Jpeg);

        // Zamknij strumień
        outputImage.Close();

        imageCounter++;
    }

    // Wyzerować licznik
    imageCounter = 1;
}

Uzyskaj bezpłatną licencję

Możesz używać Aspose.PDF for .NET bez ograniczeń ewaluacyjnych przy użyciu tymczasowej licencji.

Wniosek

Analiza plików PDF i wyodrębnienie tekstu lub obrazów może być wymagane w różnych przypadkach. W tym artykule nauczyłeś się programowo wyodrębniać obrazy z plików PDF w języku C#. Więcej informacji na temat C# PDF API można znaleźć w dokumentacji. Możesz również zamieścić swoje zapytania na naszym forum.

Zobacz też