Іноді файли PDF створюються за допомогою зображень зі сканера чи камери. У певних ситуаціях вам може знадобитися перетворити сканований PDF-файл на PDF-файл із можливістю пошуку за допомогою OCR, щоб ви могли працювати з текстовим вмістом PDF-файлу. Відповідно до цього, у цій статті розповідається про те, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку за допомогою OCR за допомогою Java.
- Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API
- Перетворюйте відскановані PDF-файли на PDF-файли з можливістю пошуку програмним способом у Java
Відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою оптичного розпізнавання тексту – встановлення Java API
Ви можете оптично розпізнати текст у PDF-файлі за допомогою функції OCR за допомогою Aspose.OCR for Java API. Просто встановіть API, завантаживши файл JAR із розділу Нові випуски або використовуючи наведені нижче специфікації Maven:
Репозиторій:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Залежність:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Програмно конвертуйте відсканований PDF-файл у PDF-файл із можливістю пошуку за допомогою Java
Ви можете розпізнати вміст відсканованого файлу PDF за допомогою OCR. Це дає змогу конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою таких кроків:
- Створіть об’єкт класу AsposeOcr.
- Розпізнайте дані зі сканованого PDF за допомогою методу RecognizePdf.
- Встановіть номери сторінок для розпізнавання OCR за допомогою класу DocumentRecognitionSettings.
- Збережіть вихідний результат оптичного розпізнавання як PDF-файл із можливістю пошуку.
У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований PDF-файл у PDF-файл із можливістю пошуку на Java:
// Відсканований багатосторінковий шлях PDF
String fullPath = "multi_page.pdf";
// Ініціалізація об’єкта класу AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Розпізнавати зображення з PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Зберегти результат як PDF з можливістю пошуку
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
Отримайте безкоштовну оціночну ліцензію
Ви можете оцінити функцію розпізнавання тексту у відсканованому PDF-файлі за допомогою операцій OCR без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.
Висновок
У цій статті ви дізналися, як програмно конвертувати відсканований PDF-файл у PDF-документ із можливістю пошуку за допомогою функції OCR у Java. Крім того, ви можете ознайомитися з іншими функціями API, пов’язаними з OCR, відвідавши документацію. Будь ласка, не соромтеся написати нам на форум у разі будь-яких проблем.