Отсканированный PDF в Word Java OCR

Файлы PDF, созданные с помощью камеры или сканера, содержат отсканированные изображения. Такие изображения нельзя обрабатывать для выделения или редактирования текста, поэтому вам может потребоваться преобразовать отсканированные документы PDF в документы Word в формате DOCX или DOC. В этой статье рассказывается, как программно преобразовать отсканированный файл PDF в файл Word с помощью Java.

API Java для преобразования отсканированного PDF в файл Word

Вы можете манипулировать отсканированными PDF-документами с помощью операций OCR с помощью Aspose.OCR для Java API, а затем программно создавать файл Word с помощью Aspose.Words для Java API. Просто настройте API, загрузив файлы JAR из раздела Загрузки или используя следующие спецификации Maven:

Репозиторий:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Зависимость:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Программное преобразование отсканированного PDF в документ Word с использованием Java

Вы можете преобразовать отсканированный файл PDF в документ Word с помощью технологии оптического распознавания символов. Это двухэтапный процесс, при котором отсканированный файл PDF преобразуется в текст, а затем текст преобразуется в документ Word в формате DOC или DOCX. Вам необходимо выполнить следующие шаги, чтобы преобразовать отсканированный PDF в документ Word:

  1. Создайте объект класса AsposeOCRPdf.
  2. Распознавание изображений из файла PDF с помощью объекта типа DocumentRecognitionSettings.
  3. Укажите объект класса String и сохраните текст.
  4. Инициализируйте новый документ Word с помощью класса Document.
  5. Установите шрифты и форматирование абзацев.
  6. Наконец, запишите выходной документ Word на диск в виде файла DOCX или DOC.

Фрагмент кода ниже демонстрирует, как преобразовать отсканированный файл PDF в документ Word в виде файла DOC или DOCX программным путем с помощью Java:

// Инициализировать экземпляр AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Получить файл PDF для распознавания     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Распознать входной файл PDF с помощью метода RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Распечатать результат
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Инициализируйте документ Word с помощью класса Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Укажите форматирование шрифта
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Укажите форматирование абзаца
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Сохраните выходной документ Word. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Получить бесплатную временную лицензию

Вы можете оценить API без каких-либо ограничений, запросив бесплатную временную лицензию.

Вывод

В этой статье вы узнали, как преобразовать отсканированный PDF-файл в документ Word в виде файла DOCX или DOC программным способом с использованием Java. Кроме того, вы можете ознакомиться с другими функциями, связанными с OCR, посетив документацию. Если у вас возникнут вопросы, свяжитесь с нами на форуме.

Смотрите также

Информация: вас может заинтересовать другой Java API (Aspose.Slides for Java), который позволяет преобразовывать презентации (в PDF-файлы, текстовые документы и т. д.) и импортировать изображения. ] или другие документы в презентации.