Иногда файлы PDF создаются с использованием изображений со сканера или камеры. В некоторых случаях вам может потребоваться преобразовать отсканированный PDF-файл в PDF-файл с возможностью поиска с помощью OCR, чтобы вы могли работать с текстовым содержимым в PDF-файле. В соответствии с этим в этой статье рассказывается, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-файл с помощью функции OCR с использованием Java.
- Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка Java API
- Программное преобразование отсканированного PDF в PDF с возможностью поиска на Java
Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка Java API
Вы можете оптически распознавать текст в файле PDF с помощью функции OCR, используя API Aspose.OCR для Java. Просто установите API, загрузив файл JAR из раздела Новые выпуски или используя приведенные ниже спецификации Maven:
Репозиторий:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Зависимость:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Программное преобразование отсканированного PDF в PDF с возможностью поиска с помощью Java
Вы можете распознать содержимое отсканированного PDF-файла с помощью OCR. Это позволяет преобразовать отсканированный файл PDF в документ PDF с возможностью поиска, выполнив следующие действия:
- Создайте объект класса AsposeOcr.
- Распознайте данные из отсканированного PDF с помощью метода RecognizePdf.
- Установите номера страниц для распознавания OCR с помощью класса DocumentRecognitionSettings.
- Сохраните результат OCR в виде доступного для поиска файла PDF.
В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-файл на Java:
// Путь отсканированного многостраничного PDF-файла
String fullPath = "multi_page.pdf";
// Инициализировать объект класса AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Распознавать изображения из PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Сохранить результат как PDF с возможностью поиска
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);
Получите бесплатную ознакомительную лицензию
Вы можете оценить функцию распознавания текста в отсканированном PDF-файле с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как программно на Java преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска с помощью функции OCR. Кроме того, вы можете ознакомиться с другими функциями API, связанными с OCR, посетив документацию. Пожалуйста, не стесняйтесь писать нам на форум в случае каких-либо проблем.