PDF — один из наиболее часто используемых форматов для отправки документа третьим лицам. Причиной такой популярности является совместимость PDF с различными платформами независимо от требований к аппаратному/программному обеспечению. Однако в некоторых случаях вам может потребоваться преобразовать документ PDF в редактируемый формат документа. Формат PDF в DOC или DOCX может быть приоритетным вариантом преобразования в таких случаях. Чтобы автоматизировать процесс преобразования, в этой статье показано, как программно преобразовать PDF в Word DOC и DOCX на Java.
Итак, в этой статье вы узнаете, как:
- Конвертируйте PDF в DOC с помощью Java.
- Конвертируйте PDF в формат DOCX с помощью Java.
- Настройте преобразование PDF в Word (DOC/DOCX).
Библиотека конвертера Java PDF в Word DOC
Благодаря Aspose.PDF for Java — Java API для работы с PDF, который предоставляет простые способы преобразования PDF-файлов во множество других форматов, включая PDF в DOC и PDF в DOCX. Вы можете скачать и добавить JAR-файл API в свой проект или сослаться на него, используя следующие конфигурации Maven:
Репозиторий:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
Зависимость:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>19.12</version>
</dependency>
Преобразование PDF в DOC на Java
После того, как вы сослались на Aspose.PDF для Java в своем приложении, вы можете преобразовать любой PDF-документ в формат DOC с помощью пары строк кода. Ниже приведены шаги, необходимые для выполнения этого преобразования.
- Создайте экземпляр класса Document и инициализируйте его, указав путь к входному PDF-файлу.
- Вызовите метод Document.save() с именем выходного файла DOC и аргументами SaveFormat.Doc.
В следующем примере кода показано, как преобразовать PDF в DOC на Java.
// Загрузить исходный PDF-файл
Document doc = new Document("input.pdf");
// Сохраните полученный файл DOC
doc.save("output.doc", SaveFormat.Doc);
Входной PDF-документ
Выходной документ Word
Преобразование PDF в DOCX на Java
DOCX — это хорошо известный формат документов Word, и в отличие от формата DOC структура DOCX была основана на двоичных файлах, а также на файлах XML. Если вы хотите преобразовать PDF в формат DOCX, вы можете указать API сделать это с помощью аргумента SaveFormat.DocX в методе Document.save().
В следующем примере кода показано, как преобразовать PDF в DOCX на Java.
// Загрузить исходный PDF-файл
Document doc = new Document("input.pdf");
// Сохраните полученный файл DOCX
doc.save("output.docx", SaveFormat.DocX);
Java PDF в Word с дополнительными параметрами
Aspose.PDF для Java также предоставляет некоторые дополнительные параметры, которые вы можете использовать при преобразовании PDF в Word, такие как выходной формат, разрешение изображения, расстояние между текстовыми строками и так далее. Для этой цели используется класс DocSaveOptions, и ниже приведен список параметров, которые вы можете использовать:
- setFormat (целое значение) - To set the output format (Doc, Docx, etc.).
- setAddReturnToLineEnd (логическое значение) - To add the paragraph or line breaks.
- setImageResolutionX (целое значение) - To set the X resolution for the images.
- setImageResolutionY (целое значение) - To set the Y resolution for the images.
- setMaxDistanceBetweenTextLines (значение с плавающей запятой) - To group text lines into paragraphs.
- setMode (целое значение) - To set recognition mode.
- setRecognizeBullets (логическое значение) - To switch the recognition of bullets on.
- setRelativeHorizontalProximity (значение с плавающей запятой) - To set the width of space between different text elements in the input PDF file.
В следующем примере кода показано, как использовать класс DocSaveOptions для преобразования PDF в DOCX с помощью Java.
// Загрузить исходный PDF-файл
Document doc = new Document("input.pdf");
// Создать экземпляр DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();
// Установить выходной формат
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// Установите режим распознавания «Поток».
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);
// Установите горизонтальную близость как 2,5
saveOptions.setRelativeHorizontalProximity(2.5f);
// Включить распознавание маркеров в процессе преобразования
saveOptions.setRecognizeBullets(true);
// Сохраните полученный файл DOCX
doc.save("resultant.docx", saveOptions);
Вывод
В этой статье вы узнали, как легко конвертировать PDF-документы в Word DOC и DOCX на Java. Вы можете конвертировать PDF в DOC или PDF в DOCX в зависимости от ваших требований. Кроме того, также обсуждались дополнительные функции для настройки преобразования PDF в Word DOC/DOCX. Вы можете узнать больше о преобразовании PDF в другие форматы из документации.