Відсканований PDF в Excel OCR Java

Відскановані файли PDF містять дані у форматі зображень, оскільки їх часто створюють сканери. У певних ситуаціях вам може знадобитися цифрова інформація зі сканованого файлу PDF. Таким чином, ви можете виконувати операції OCR для створення файлу Excel. У цій статті розповідається про те, як створити відсканований конвертер PDF у Excel із функцією OCR програмним шляхом у Java.

Створення відсканованого PDF-файлу в Excel Converter з OCR – встановлення Java API

Ви можете оптично розпізнати текст у PDF-файлі за допомогою функції OCR за допомогою Aspose.OCR for Java API. Просто встановіть API, завантаживши файл JAR із розділу Нові випуски або використовуючи наведені нижче специфікації Maven:

Репозиторій:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Залежність:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Програмно конвертуйте відскановані PDF-файли в Excel на Java

Ви можете конвертувати сканований PDF-файл у Excel за допомогою оптичного розпізнавання символів, виконавши наведені нижче дії.

  1. Створіть об’єкт класу AsposeOcr.
  2. Укажіть параметри за допомогою класу DocumentRecognitionSettings.
  3. Розпізнайте сканований файл PDF за допомогою методу RecognizePdf.
  4. Збережіть вихідний результат OCR як файл Excel.

У наведеному нижче фрагменті коду пояснюється, як програмно перетворити сканований PDF-файл у файл Excel на Java:

// Шлях сканованого файлу PDF
String fullPath = "scanned.pdf";

// Ініціалізація об’єкта класу AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Ініціалізувати об’єкт класу DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Розпізнавати зображення з PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Збережіть результат як файл Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Отримайте безкоштовну оціночну ліцензію

Ви можете оцінити API для створення відсканованого конвертера PDF у Excel за допомогою операцій OCR без будь-яких обмежень, надіславши запит на безкоштовну тимчасову ліцензію.

Висновок

У цій статті ви зрозуміли, як конвертувати відсканований файл PDF у файл Excel за допомогою функції OCR програмним шляхом у Java. Крім того, ознайомтеся з іншими функціями, пов’язаними з OCR, відвідавши документацію. Не соромтеся писати нам на форум у разі будь-яких проблем.

Дивись також