Отсканированный PDF в Excel OCR Java

Отсканированные файлы PDF содержат данные в формате изображения, поскольку они часто создаются сканерами. В определенных ситуациях вам может потребоваться числовая информация из отсканированного PDF-файла. Таким образом, вы можете выполнять операции OCR для создания файла Excel. В этой статье рассказывается, как программно на Java создать конвертер отсканированных PDF в Excel с функцией OCR.

Создание отсканированного конвертера PDF в Excel с OCR — установка Java API

Вы можете оптически распознавать текст в файле PDF с помощью функции OCR, используя API Aspose.OCR для Java. Просто установите API, загрузив файл JAR из раздела Новые выпуски или используя приведенные ниже спецификации Maven:

Репозиторий:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Зависимость:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Программное преобразование отсканированного PDF в Excel на Java

Вы можете преобразовать отсканированный PDF-файл в Excel с помощью OCR, выполнив следующие действия:

  1. Создайте объект класса AsposeOcr.
  2. Укажите параметры с помощью класса DocumentRecognitionSettings.
  3. Распознайте отсканированный файл PDF с помощью метода RecognizePdf.
  4. Сохраните выходной результат OCR в виде файла Excel.

В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в файл Excel на Java:

// Путь к отсканированному файлу PDF
String fullPath = "scanned.pdf";

// Инициализировать объект класса AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Инициализировать объект класса DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Распознавать изображения из PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Сохранить результат как файл Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Получите бесплатную ознакомительную лицензию

Вы можете оценить API для создания отсканированного конвертера PDF в Excel с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как программно преобразовать отсканированный PDF-файл в файл Excel с функцией OCR на Java. Кроме того, ознакомьтесь с другими функциями, связанными с OCR, посетив документацию. Не стесняйтесь писать нам на форум в случае каких-либо проблем.

Смотрите также