Извлечь текст из PDF C#

Формат PDF широко используется для создания документов только для чтения для совместного использования и печати. Как правило, PDF-документы содержат изображения вместе с текстом, и в некоторых случаях вам может потребоваться извлечь эти изображения при анализе PDF-файлов. В соответствии с этим в этой статье рассказывается, как программно извлекать изображения из PDF в C# .NET.

C# .NET API для извлечения изображений из PDF — скачать бесплатно

Чтобы извлечь изображения из PDF, мы будем использовать Aspose.PDF для .NET. Это мощный API, который позволяет реализовать широкий спектр функций создания и обработки PDF-файлов. Кроме того, он позволяет без проблем анализировать PDF и извлекать изображения. Вы можете либо скачать API, либо установить его с помощью NuGet.

PM> Install-Package Aspose.PDF

Извлечение изображений из PDF в C#

Ниже приведены шаги для извлечения изображений из PDF-файла на C#.

  • Загрузите документ с помощью класса Document.
  • Пролистайте страницы документа PDF, используя коллекцию Document.Pages.
  • Для каждой страницы получите доступ к каждому XImage в коллекции Page.Resources.Images.
  • Создайте объект FileStream для каждого изображения и сохраните его в формате JPEG, PNG и т. д.
  • Наконец, закройте FileStream.

В следующем примере кода показано, как извлечь изображения из PDF.

// Открыть документ
Document pdfDocument = new Document("candy.pdf");

int imageCounter = 1;

// Пролистывать страницы
foreach (var page in pdfDocument.Pages)
{
    // Перебрать все изображения
    foreach (XImage image in page.Resources.Images)
    {
        // Создать файловый поток для изображения
        FileStream outputImage = new FileStream(String.Format("Page{0}_Image{1}.jpg", page.Number, imageCounter), FileMode.Create);

        // Сохранить выходное изображение
        image.Save(outputImage, ImageFormat.Jpeg);

        // Закрыть поток
        outputImage.Close();

        imageCounter++;
    }

    // Сбросить счетчик
    imageCounter = 1;
}

Получить бесплатную лицензию

Вы можете использовать Aspose.PDF для .NET без оценочных ограничений, используя временную лицензию.

Вывод

Разбор файлов PDF и извлечение текста или изображений может потребоваться в различных случаях. В этой статье вы узнали, как программно извлекать изображения из PDF-файлов на C#. Вы можете узнать больше о C# PDF API, используя документацию. Кроме того, вы можете оставлять свои вопросы на нашем форуме.

Смотрите также