Відскановано в формат PDF Java з можливістю пошуку

Іноді файли PDF створюються за допомогою зображень зі сканера чи камери. У певних ситуаціях вам може знадобитися перетворити сканований PDF-файл на PDF-файл із можливістю пошуку за допомогою OCR, щоб ви могли працювати з текстовим вмістом PDF-файлу. Відповідно до цього, у цій статті розповідається про те, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку за допомогою OCR за допомогою Java.

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API

Ви можете оптично розпізнати текст у PDF-файлі за допомогою функції OCR за допомогою Aspose.OCR for Java API. Просто встановіть API, завантаживши файл JAR із розділу Нові випуски або використовуючи наведені нижче специфікації Maven:

Репозиторій:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Залежність:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Програмно конвертуйте відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою Java

Ви можете розпізнати вміст відсканованого файлу PDF за допомогою OCR. Це дає змогу конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою таких кроків:

  1. Створіть об’єкт класу AsposeOcr.
  2. Розпізнайте дані зі сканованого PDF за допомогою методу RecognizePdf.
  3. Встановіть номери сторінок для розпізнавання OCR за допомогою класу DocumentRecognitionSettings.
  4. Збережіть вихідний результат оптичного розпізнавання як PDF-файл із можливістю пошуку.

У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку на Java:

// Відсканований багатосторінковий шлях PDF
String fullPath = "multi_page.pdf";

// Ініціалізація об’єкта класу AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Розпізнавати зображення з PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Зберегти результат як PDF з можливістю пошуку
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Отримайте безкоштовну оціночну ліцензію

Ви можете оцінити функцію розпізнавання тексту у відсканованому PDF-файлі за допомогою операцій OCR без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як програмно конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою функції OCR у Java. Крім того, ви можете ознайомитися з іншими функціями API, пов’язаними з OCR, відвідавши документацію. Будь ласка, не соромтеся написати нам на форум у разі будь-яких проблем.

Дивись також