PDF es uno de los formatos más utilizados para enviar el documento a terceros. La razón detrás de esta popularidad es la compatibilidad de PDF en múltiples plataformas, independientemente de los requisitos de hardware/software. Sin embargo, en algunos casos, querrá convertir el documento PDF en un formato de documento editable. El formato PDF a DOC o DOCX podría ser la opción de conversión prioritaria en tales casos. Para automatizar el proceso de conversión, este artículo muestra cómo convertir PDF a Word DOC y DOCX mediante programación en Java.
Entonces, en este artículo, aprenderá cómo:
- Convierta PDF a DOC usando Java.
- Convierta PDF a formato DOCX usando Java.
- Personalice la conversión de PDF a Word (DOC/DOCX).
Biblioteca de conversión de PDF a Word DOC de Java
Gracias a Aspose.PDF for Java, una API de Java para la manipulación de PDF que proporciona formas fáciles de convertir archivos PDF a una variedad de otros formatos, incluidos PDF a DOC y PDF a DOCX. Puede descargar y agregar el archivo JAR de la API a su proyecto o hacer referencia a él usando las siguientes configuraciones de Maven:
Repositorio:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
Dependencia:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>19.12</version>
</dependency>
Convertir PDF a DOC en Java
Una vez que haya hecho referencia a Aspose.PDF for Java en su aplicación, puede convertir cualquier documento PDF a formato DOC en un par de líneas de código. Los siguientes son los pasos necesarios para realizar esta conversión.
- Cree una instancia de la clase Document e inicialícela con la ruta del archivo PDF de entrada.
- Llame al método Document.save() con el nombre del archivo DOC de salida y los argumentos SaveFormat.Doc.
El siguiente ejemplo de código muestra cómo convertir PDF a DOC en Java.
// Cargar archivo PDF de origen
Document doc = new Document("input.pdf");
// Guarde el archivo DOC resultante
doc.save("output.doc", SaveFormat.Doc);
Introducir documento PDF
Documento de Word de salida
Convertir PDF a DOCX en Java
DOCX es un formato muy conocido para documentos de Word y, en contraste con el formato DOC, la estructura de DOCX se basaba tanto en archivos binarios como XML. En caso de que desee convertir PDF a formato DOCX, puede indicarle a la API que lo haga utilizando el argumento SaveFormat.DocX en el método Document.save().
El siguiente ejemplo de código muestra cómo convertir PDF a DOCX en Java.
// Cargar archivo PDF de origen
Document doc = new Document("input.pdf");
// Guarde el archivo DOCX resultante
doc.save("output.docx", SaveFormat.DocX);
Java PDF a Word con opciones adicionales
Aspose.PDF for Java también proporciona algunas opciones adicionales que puede usar en la conversión de PDF a Word, como el formato de salida, la resolución de la imagen, la distancia entre las líneas de texto, etc. La clase DocSaveOptions se usa para este propósito y la siguiente es la lista de opciones que puede usar:
- setFormat(valor int) - To set the output format (Doc, Docx, etc.).
- setAddReturnToLineEnd(valor booleano) - To add the paragraph or line breaks.
- setImageResolutionX(valor int) - To set the X resolution for the images.
- setImageResolutionY(valor int) - To set the Y resolution for the images.
- setMaxDistanceBetweenTextLines(valor flotante) - To group text lines into paragraphs.
- setMode(valor int) - To set recognition mode.
- setRecognizeBullets(valor booleano) - To switch the recognition of bullets on.
- setRelativeHorizontalProximity(valor flotante) - To set the width of space between different text elements in the input PDF file.
El siguiente ejemplo de código muestra cómo usar la clase DocSaveOptions en la conversión de PDF a DOCX usando Java.
// Cargar archivo PDF de origen
Document doc = new Document("input.pdf");
// Crear una instancia de DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();
// Establecer formato de salida
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// Establecer el modo de reconocimiento como Flujo
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);
// Establecer la proximidad horizontal como 2.5
saveOptions.setRelativeHorizontalProximity(2.5f);
// Habilitar el reconocimiento de viñetas durante el proceso de conversión
saveOptions.setRecognizeBullets(true);
// Guarde el archivo DOCX resultante
doc.save("resultant.docx", saveOptions);
Conclusión
En este artículo, ha aprendido lo fácil que es convertir documentos PDF a Word DOC y DOCX en Java. Puede convertir PDF a DOC o PDF a DOCX según sus requisitos. Además, también se han discutido características adicionales para personalizar la conversión de PDF a Word DOC/DOCX. Puede obtener más información sobre cómo convertir PDF a otros formatos en la documentación.