Перетворіть відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою OCR у Java

Відскановано в формат PDF Java з можливістю пошуку

Іноді файли PDF створюються за допомогою зображень зі сканера чи камери. У певних ситуаціях вам може знадобитися перетворити сканований PDF-файл на PDF-файл із можливістю пошуку за допомогою OCR, щоб ви могли працювати з текстовим вмістом PDF-файлу. Відповідно до цього, у цій статті розповідається про те, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку за допомогою OCR за допомогою Java.

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API
Перетворюйте відскановані PDF-файли на PDF-файли з можливістю пошуку програмним способом у Java

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API

Ви можете оптично розпізнати текст у PDF-файлі за допомогою функції OCR за допомогою Aspose.OCR for Java API. Просто встановіть API, завантаживши файл JAR із розділу Нові випуски або використовуючи наведені нижче специфікації Maven:

Репозиторій:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Залежність:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Програмно конвертуйте відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою Java

Ви можете розпізнати вміст відсканованого файлу PDF за допомогою OCR. Це дає змогу конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою таких кроків:

Створіть об’єкт класу AsposeOcr.
Розпізнайте дані зі сканованого PDF за допомогою методу RecognizePdf.
Встановіть номери сторінок для розпізнавання OCR за допомогою класу DocumentRecognitionSettings.
Збережіть вихідний результат оптичного розпізнавання як PDF-файл із можливістю пошуку.

У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку на Java:

// Відсканований багатосторінковий шлях PDF
String fullPath = "multi_page.pdf";

// Ініціалізація об’єкта класу AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Розпізнавати зображення з PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Зберегти результат як PDF з можливістю пошуку
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Отримайте безкоштовну оціночну ліцензію

Ви можете оцінити функцію розпізнавання тексту у відсканованому PDF-файлі за допомогою операцій OCR без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви дізналися, як програмно конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою функції OCR у Java. Крім того, ви можете ознайомитися з іншими функціями API, пов’язаними з OCR, відвідавши документацію. Будь ласка, не соромтеся написати нам на форум у разі будь-яких проблем.

Дивись також

Розпізнавайте текст, виконуючи OCR на зображенні з URL-адреси за допомогою Java

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API#

Програмно конвертуйте відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою Java#

Отримайте безкоштовну оціночну ліцензію#

Висновок#

Дивись також#

Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API

Програмно конвертуйте відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою Java

Отримайте безкоштовну оціночну ліцензію

Висновок

Дивись також