Отсканированный PDF для поиска с помощью OCR в C#

Файлы PDF иногда основаны на изображениях, которые обычно создаются с помощью сканера или устройства обработки изображений. Вы можете преобразовать отсканированный файл PDF в файл PDF с возможностью поиска с помощью OCR, чтобы текст можно было редактировать или обновлять в документе. В соответствии с этим сценарием в этой статье объясняется, как программно преобразовать отсканированный PDF-файл в PDF-файл с возможностью поиска с помощью операций OCR с помощью C#.

Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка C# API

Вы можете выполнять операции OCR в отсканированном PDF-файле с помощью Aspose.OCR for .NET API. Просто настройте API, загрузив файл DLL из раздела Новые версии или используя следующую команду установки NuGet:

PM> Install-Package Aspose.OCR

Программное преобразование отсканированного PDF в PDF с возможностью поиска с помощью C#

Вы можете преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска при оптическом распознавании текста, выполнив следующие действия:

  1. Инициализировать экземпляр класса AsposeOcr.
  2. Распознавайте изображения из PDF с помощью метода RecognizePdf.
  3. Установите различные свойства для распознавания OCR с помощью класса DocumentRecognitionSettings.
  4. Сохраните результат распознавания в виде PDF-файла с возможностью поиска.

Фрагмент кода ниже объясняет, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-документ с помощью C#:

// Путь отсканированного многостраничного PDF-файла
string fullPath = "multi_page.pdf";

// Инициализировать объект класса AsposeOcr
AsposeOcr api = new AsposeOcr();

// Распознавать изображения из PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Сохранить результат как PDF с возможностью поиска
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Получите бесплатную ознакомительную лицензию

Вы можете оценить функцию распознавания текста в отсканированном PDF-файле с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска, выполнив над ним операции OCR программно на C#. Кроме того, вы можете проверить некоторые другие функции, связанные с распознаванием текста, предлагаемые API, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форуме в случае возникновения каких-либо вопросов.

Смотрите также