Отсканировано в PDF с возможностью поиска Java

Иногда файлы PDF создаются с использованием изображений со сканера или камеры. В некоторых случаях вам может потребоваться преобразовать отсканированный PDF-файл в PDF-файл с возможностью поиска с помощью OCR, чтобы вы могли работать с текстовым содержимым в PDF-файле. В соответствии с этим в этой статье рассказывается, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-файл с помощью функции OCR с использованием Java.

Отсканированный PDF в PDF с возможностью поиска с помощью OCR — установка Java API

Вы можете оптически распознавать текст в файле PDF с помощью функции OCR, используя API Aspose.OCR для Java. Просто установите API, загрузив файл JAR из раздела Новые выпуски или используя приведенные ниже спецификации Maven:

Репозиторий:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Зависимость:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Программное преобразование отсканированного PDF в PDF с возможностью поиска с помощью Java

Вы можете распознать содержимое отсканированного PDF-файла с помощью OCR. Это позволяет преобразовать отсканированный файл PDF в документ PDF с возможностью поиска, выполнив следующие действия:

  1. Создайте объект класса AsposeOcr.
  2. Распознайте данные из отсканированного PDF с помощью метода RecognizePdf.
  3. Установите номера страниц для распознавания OCR с помощью класса DocumentRecognitionSettings.
  4. Сохраните результат OCR в виде доступного для поиска файла PDF.

В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в доступный для поиска PDF-файл на Java:

// Путь отсканированного многостраничного PDF-файла
String fullPath = "multi_page.pdf";

// Инициализировать объект класса AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Распознавать изображения из PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Сохранить результат как PDF с возможностью поиска
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Получите бесплатную ознакомительную лицензию

Вы можете оценить функцию распознавания текста в отсканированном PDF-файле с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как программно на Java преобразовать отсканированный PDF-файл в PDF-документ с возможностью поиска с помощью функции OCR. Кроме того, вы можете ознакомиться с другими функциями API, связанными с OCR, посетив документацию. Пожалуйста, не стесняйтесь писать нам на форум в случае каких-либо проблем.

Смотрите также