Отсканированные файлы PDF содержат данные в формате изображения, поскольку они часто создаются сканерами. В определенных ситуациях вам может потребоваться числовая информация из отсканированного PDF-файла. Таким образом, вы можете выполнять операции OCR для создания файла Excel. В этой статье рассказывается, как программно на Java создать конвертер отсканированных PDF в Excel с функцией OCR.
- Создание отсканированного конвертера PDF в Excel с OCR — установка Java API
- Программное преобразование отсканированного PDF в Excel на Java
Создание отсканированного конвертера PDF в Excel с OCR — установка Java API
Вы можете оптически распознавать текст в файле PDF с помощью функции OCR, используя API Aspose.OCR для Java. Просто установите API, загрузив файл JAR из раздела Новые выпуски или используя приведенные ниже спецификации Maven:
Репозиторий:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Зависимость:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.12</version>
</dependency>
Программное преобразование отсканированного PDF в Excel на Java
Вы можете преобразовать отсканированный PDF-файл в Excel с помощью OCR, выполнив следующие действия:
- Создайте объект класса AsposeOcr.
- Укажите параметры с помощью класса DocumentRecognitionSettings.
- Распознайте отсканированный файл PDF с помощью метода RecognizePdf.
- Сохраните выходной результат OCR в виде файла Excel.
В следующем фрагменте кода показано, как программно преобразовать отсканированный PDF-файл в файл Excel на Java:
// Путь к отсканированному файлу PDF
String fullPath = "scanned.pdf";
// Инициализировать объект класса AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();
// Инициализировать объект класса DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);
// Распознавать изображения из PDF
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);
// Сохранить результат как файл Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);
Получите бесплатную ознакомительную лицензию
Вы можете оценить API для создания отсканированного конвертера PDF в Excel с помощью операций OCR без каких-либо ограничений, запросив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как программно преобразовать отсканированный PDF-файл в файл Excel с функцией OCR на Java. Кроме того, ознакомьтесь с другими функциями, связанными с OCR, посетив документацию. Не стесняйтесь писать нам на форум в случае каких-либо проблем.