Відсканований PDF-файл для пошуку за допомогою OCR у C#

Файли PDF іноді створюються на основі зображень, які зазвичай створюються за допомогою сканера або пристрою для обробки зображень. Ви можете перетворити сканований PDF-файл у PDF-файл із можливістю пошуку за допомогою OCR, щоб можна було редагувати або оновлювати текст у документі. Відповідно до цього сценарію, у цій статті пояснюється, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку за допомогою операцій OCR за допомогою C#.

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання символів – встановлення C# API

За допомогою API Aspose.OCR for .NET можна виконувати операції OCR зі сканованим файлом PDF. Просто налаштуйте API, завантаживши файл DLL із розділу Нові випуски або скориставшись такою командою встановлення NuGet:

PM> Install-Package Aspose.OCR

Програмне перетворення сканованого PDF-файлу на PDF-файл із можливістю пошуку за допомогою C#

Ви можете перетворити сканований PDF-файл на PDF-документ із можливістю пошуку з оптичним розпізнаванням тексту, виконавши наведені нижче дії.

  1. Ініціалізувати екземпляр класу AsposeOcr.
  2. Розпізнайте зображення з PDF за допомогою методу RecognizePdf.
  3. Встановіть різні властивості для розпізнавання OCR за допомогою класу DocumentRecognitionSettings.
  4. Збережіть результат оптичного розпізнавання як PDF-файл із можливістю пошуку.

У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований PDF-файл на PDF-документ із можливістю пошуку за допомогою C#:

// Відсканований багатосторінковий шлях PDF
string fullPath = "multi_page.pdf";

// Ініціалізація об’єкта класу AsposeOcr
AsposeOcr api = new AsposeOcr();

// Розпізнавати зображення з PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Зберегти результат як PDF з можливістю пошуку
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Отримайте безкоштовну оціночну ліцензію

Ви можете оцінити функцію розпізнавання тексту у відсканованому PDF-файлі за допомогою операцій OCR без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як перетворити відсканований PDF-файл на PDF-документ із можливістю пошуку, виконавши над ним операції OCR програмним шляхом у C#. Крім того, ви можете ознайомитися з кількома іншими функціями, пов’язаними з розпізнаванням символів, які пропонує API, відвідавши документацію. Якщо у вас виникнуть запитання, зв’яжіться з нами на форумі.

Дивись також