Файлы PDF иногда основаны на изображениях, которые обычно создаются с помощью сканера или устройства обработки изображений. Вы можете преобразовать отсканированный файл PDF в файл PDF с возможностью поиска с помощью OCR, чтобы текст можно было редактировать или обновлять в документе. В соответствии с этим сценарием в этой статье объясняется, как программно преобразовать отсканированный PDF-файл в PDF-файл с возможностью поиска с помощью операций OCR с помощью C#.
- Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка C# API
- Программное преобразование отсканированного PDF в PDF с возможностью поиска на C#
Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка C# API
Вы можете выполнять операции OCR в отсканированном PDF-файле с помощью Aspose.OCR for .NET API. Просто настройте API, загрузив файл DLL из раздела Новые версии или используя следующую команду установки NuGet:
PM> Install-Package Aspose.OCR
Программное преобразование отсканированного PDF в PDF с возможностью поиска с помощью C#
Вы можете преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска при оптическом распознавании текста, выполнив следующие действия:
- Инициализировать экземпляр класса AsposeOcr.
- Распознавайте изображения из PDF с помощью метода RecognizePdf.
- Установите различные свойства для распознавания OCR с помощью класса DocumentRecognitionSettings.
- Сохраните результат распознавания в виде PDF-файла с возможностью поиска.
Фрагмент кода ниже объясняет, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-документ с помощью C#:
// Путь отсканированного многостраничного PDF-файла
string fullPath = "multi_page.pdf";
// Инициализировать объект класса AsposeOcr
AsposeOcr api = new AsposeOcr();
// Распознавать изображения из PDF
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
StartPage = 0,
PagesNumber = 1
});
// Сохранить результат как PDF с возможностью поиска
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);
Получите бесплатную ознакомительную лицензию
Вы можете оценить функцию распознавания текста в отсканированном PDF-файле с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска, выполнив над ним операции OCR программно на C#. Кроме того, вы можете проверить некоторые другие функции, связанные с распознаванием текста, предлагаемые API, посетив документацию. Пожалуйста, не стесняйтесь обращаться к нам на форуме в случае возникновения каких-либо вопросов.