PDF é um dos formatos mais usados para enviar o documento a terceiros. A razão por trás dessa popularidade é a compatibilidade do PDF em várias plataformas, independentemente de quaisquer requisitos de hardware/software. No entanto, em alguns casos, você deseja converter o documento PDF em um formato de documento editável. O formato PDF para DOC ou DOCX pode ser a opção de conversão prioritária nesses casos. Para automatizar o processo de conversão, este artigo mostra como converter PDF para Word DOC e DOCX programaticamente em Java.
Então, neste artigo, você saberá como:
- Converta PDF para DOC usando Java.
- Converta PDF para formato DOCX usando Java.
- Personalize a conversão de PDF para Word (DOC/DOCX).
Biblioteca Java PDF para Word DOC Converter
Graças ao Aspose.PDF for Java - uma API Java de manipulação de PDF que fornece maneiras fáceis de converter arquivos PDF para uma variedade de outros formatos, incluindo PDF para DOC e PDF para DOCX. Você pode baixar e adicionar o arquivo JAR da API ao seu projeto ou referenciá-lo usando as seguintes configurações do Maven:
Repositório:
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.com/repo/</url>
</repository>
Dependência:
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf</artifactId>
<version>19.12</version>
</dependency>
Converter PDF para DOC em Java
Depois de referenciar o Aspose.PDF para Java em seu aplicativo, você pode converter qualquer documento PDF para o formato DOC em algumas linhas de código. A seguir estão as etapas necessárias para realizar essa conversão.
- Crie uma instância da classe Document e inicialize-a com o caminho do arquivo PDF de entrada.
- Chame o método Document.save() com o nome do arquivo DOC de saída e os argumentos SaveFormat.Doc.
O exemplo de código a seguir mostra como converter PDF em DOC em Java.
// Carregar arquivo PDF de origem
Document doc = new Document("input.pdf");
// Salvar arquivo DOC resultante
doc.save("output.doc", SaveFormat.Doc);
Inserir documento PDF
Documento do Word de saída
Converter PDF para DOCX em Java
DOCX é um formato bem conhecido para documentos do Word e, em contraste com o formato DOC, a estrutura do DOCX foi baseada nos arquivos binários e XML. Caso você queira converter PDF para o formato DOCX, você pode dizer à API para fazer isso usando o argumento SaveFormat.DocX no método Document.save().
O exemplo de código a seguir mostra como converter PDF em DOCX em Java.
// Carregar arquivo PDF de origem
Document doc = new Document("input.pdf");
// Salvar arquivo DOCX resultante
doc.save("output.docx", SaveFormat.DocX);
Java PDF para Word com opções adicionais
O Aspose.PDF para Java também oferece algumas opções adicionais que você pode usar na conversão de PDF para Word, como formato de saída, resolução da imagem, distância entre linhas de texto e assim por diante. A classe DocSaveOptions é usada para esta finalidade e a seguir está a lista de opções que você pode usar:
- setFormat(int valor) - To set the output format (Doc, Docx, etc.).
- setAddReturnToLineEnd(valor booleano) - To add the paragraph or line breaks.
- setImageResolutionX(int valor) - To set the X resolution for the images.
- setImageResolutionY(int value) - To set the Y resolution for the images.
- setMaxDistanceBetweenTextLines(valor flutuante) - To group text lines into paragraphs.
- setMode(int valor) - To set recognition mode.
- setRecognizeBullets(valor booleano) - To switch the recognition of bullets on.
- setRelativeHorizontalProximity(valor flutuante) - To set the width of space between different text elements in the input PDF file.
O exemplo de código a seguir mostra como usar a classe DocSaveOptions na conversão de PDF para DOCX usando Java.
// Carregar arquivo PDF de origem
Document doc = new Document("input.pdf");
// Instanciar a instância DocSaveOptions
DocSaveOptions saveOptions = new DocSaveOptions();
// Definir formato de saída
saveOptions.setFormat(DocSaveOptions.DocFormat.DocX);
// Defina o modo de reconhecimento como Flow
saveOptions.setMode(DocSaveOptions.RecognitionMode.Flow);
// Defina a proximidade horizontal como 2,5
saveOptions.setRelativeHorizontalProximity(2.5f);
// Ative o reconhecimento de marcadores durante o processo de conversão
saveOptions.setRecognizeBullets(true);
// Salvar arquivo DOCX resultante
doc.save("resultant.docx", saveOptions);
Conclusão
Neste artigo, você aprendeu como é fácil converter documentos PDF para Word DOC e DOCX em Java. Você pode converter PDF para DOC ou PDF para DOCX com base em seus requisitos. Além disso, recursos adicionais para personalizar a conversão de PDF para Word DOC/DOCX também foram discutidos. Você pode aprender mais sobre como converter PDF para outros formatos na documentação.