
Файлы PDF, созданные с помощью камеры или сканера, содержат отсканированные изображения. Такие изображения нельзя обрабатывать для выделения или редактирования текста, поэтому вам может потребоваться преобразовать отсканированные документы PDF в документы Word в формате DOCX или DOC. В этой статье рассказывается, как программно преобразовать отсканированный файл PDF в файл Word с помощью Java.
- API Java для преобразования отсканированного PDF в файл Word
- Программное преобразование отсканированного PDF в документ Word с использованием Java
API Java для преобразования отсканированного PDF в файл Word
Вы можете манипулировать отсканированными PDF-документами с помощью операций OCR с помощью Aspose.OCR для Java API, а затем программно создавать файл Word с помощью Aspose.Words для Java API. Просто настройте API, загрузив файлы JAR из раздела Загрузки или используя следующие спецификации Maven:
Репозиторий:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>http://repository.aspose.com/repo/</url>
</repository>
Зависимость:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-ocr</artifactId>
<version>21.11</version>
<artifactId>aspose-words</artifactId>
<version>21.12</version>
</dependency>
Программное преобразование отсканированного PDF в документ Word с использованием Java
Вы можете преобразовать отсканированный файл PDF в документ Word с помощью технологии оптического распознавания символов. Это двухэтапный процесс, при котором отсканированный файл PDF преобразуется в текст, а затем текст преобразуется в документ Word в формате DOC или DOCX. Вам необходимо выполнить следующие шаги, чтобы преобразовать отсканированный PDF в документ Word:
- Создайте объект класса AsposeOCRPdf.
- Распознавание изображений из файла PDF с помощью объекта типа DocumentRecognitionSettings.
- Укажите объект класса String и сохраните текст.
- Инициализируйте новый документ Word с помощью класса Document.
- Установите шрифты и форматирование абзацев.
- Наконец, запишите выходной документ Word на диск в виде файла DOCX или DOC.
Фрагмент кода ниже демонстрирует, как преобразовать отсканированный файл PDF в документ Word в виде файла DOC или DOCX программным путем с помощью Java:
// Инициализировать экземпляр AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();
// Получить файл PDF для распознавания
String PdfPath = "multi_page.pdf";
DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);
// Распознать входной файл PDF с помощью метода RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);
String text = "";
// Распечатать результат
for(RecognitionResult page : result) {
text.concat(page.recognitionAreasText.toString());
}
// Инициализируйте документ Word с помощью класса Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);
// Укажите форматирование шрифта
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");
// Укажите форматирование абзаца
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);
// Сохраните выходной документ Word.
doc.save("Scanned_PDF_to_Word_Java.docx");
Получить бесплатную временную лицензию
Вы можете оценить API без каких-либо ограничений, запросив бесплатную временную лицензию.
Вывод
В этой статье вы узнали, как преобразовать отсканированный PDF-файл в документ Word в виде файла DOCX или DOC программным способом с использованием Java. Кроме того, вы можете ознакомиться с другими функциями, связанными с OCR, посетив документацию. Если у вас возникнут вопросы, свяжитесь с нами на форуме.
Смотрите также
Информация: вас может заинтересовать другой Java API (Aspose.Slides for Java), который позволяет преобразовывать презентации (в PDF-файлы, текстовые документы и т. д.) и импортировать изображения. ] или другие документы в презентации.