Wyodrębnij tekst z PDF C#

Format PDF jest szeroko stosowany do tworzenia dokumentów tylko do odczytu, które można udostępniać i drukować. Ogólnie dokumenty PDF zawierają obrazy wraz z tekstem iw niektórych przypadkach może być konieczne wyodrębnienie tych obrazów podczas analizowania plików PDF. Zgodnie z tym w tym artykule opisano, jak programowo wyodrębnić obrazy z pliku PDF w języku C# .NET.

C# .NET API do wyodrębniania obrazów z plików PDF — bezpłatne pobieranie

Aby wyodrębnić obrazy z PDF, użyjemy Aspose.PDF for .NET. Jest to potężny interfejs API, który umożliwia implementację szerokiej gamy funkcji generowania i manipulowania plikami PDF. Ponadto umożliwia analizowanie pliku PDF i bezproblemowe wyodrębnianie obrazów. Możesz pobrać interfejs API lub zainstalować go za pomocą NuGet.

PM> Install-Package Aspose.PDF

Wyodrębnianie obrazów z pliku PDF w języku C#

Poniżej przedstawiono kroki, aby wyodrębnić obrazy z pliku PDF w języku C#.

 • Załaduj dokument, używając klasy Document.
 • Przeglądaj strony dokumentu PDF za pomocą kolekcji Document.Pages.
 • Dla każdej strony uzyskaj dostęp do każdego XImage w kolekcji Page.Resources.Images.
 • Utwórz obiekt FileStream dla każdego obrazu i zapisz go jako JPEG, PNG itp.
 • Na koniec zamknij plik FileStream.

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z pliku PDF.

// Otwórz dokument
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Zapętlaj strony
foreach (var page in pdfDocument.Pages)
{
  // Przejrzyj wszystkie obrazy w pętli
  foreach (XImage image in page.Resources.Images)
  {
    // Utwórz strumień plików dla obrazu
    FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

    // Zapisz obraz wyjściowy
    image.Save(outputImage, ImageFormat.Jpeg);

    // Zamknij strumień
    outputImage.Close();

    imageCounter++;
  }

  // Wyzerować licznik
  imageCounter = 1;
}

Uzyskaj bezpłatną licencję

Możesz używać Aspose.PDF for .NET bez ograniczeń ewaluacyjnych przy użyciu tymczasowej licencji.

Wniosek

Analiza plików PDF i wyodrębnienie tekstu lub obrazów może być wymagane w różnych przypadkach. W tym artykule nauczyłeś się programowo wyodrębniać obrazy z plików PDF w języku C#. Więcej informacji na temat C# PDF API można znaleźć w dokumentacji. Możesz również zamieścić swoje zapytania na naszym forum.

Zobacz też