PDF digitalizado para Word Java OCR

Os arquivos PDF criados usando uma câmera ou dispositivo de scanner contêm imagens digitalizadas. Essas imagens não podem ser processadas para seleção ou edição de texto, portanto, talvez seja necessário converter PDF digitalizado em documentos do Word no formato DOCX ou DOC. Este artigo aborda como converter um arquivo PDF digitalizado em um arquivo do Word programaticamente usando Java.

API Java para converter PDF digitalizado em arquivo do Word

Você pode manipular documentos PDF digitalizados com operações de OCR usando a API Aspose.OCR for Java e, em seguida, gerar um arquivo do Word com a API Aspose.Words for Java programaticamente. Basta configurar as APIs baixando os arquivos JAR da seção Downloads ou usando as seguintes especificações do Maven:

Repositório:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependência:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.11</version>
    <artifactId>aspose-words</artifactId>
    <version>21.12</version>
</dependency>

Converter PDF digitalizado em documento do Word programaticamente usando Java

Você pode converter um arquivo PDF digitalizado em um documento do Word com a técnica de reconhecimento óptico de caracteres. Este é um processo de duas etapas em que o PDF digitalizado é convertido em texto e, em seguida, o texto é convertido em um documento do Word no formato DOC ou DOCX. Você precisa seguir as etapas abaixo para converter PDF digitalizado em um documento do Word:

  1. Instancie o objeto de classe AsposeOCRPdf.
  2. Reconheça imagens do arquivo PDF usando o objeto do tipo DocumentRecognitionSettings.
  3. Especifique o objeto de classe String e salve o texto.
  4. Inicialize um novo documento do Word com a classe Document.
  5. Defina a formatação de fontes e parágrafos.
  6. Por fim, grave o documento do Word de saída no disco como arquivo DOCX ou DOC.

O trecho de código abaixo demonstra como converter um arquivo PDF digitalizado em um documento do Word como arquivo DOC ou DOCX programaticamente usando Java:

// Inicialize uma instância de AsposeOcrPdf
AsposeOCRPdf api = new AsposeOCRPdf();

// Obter arquivo PDF para reconhecer     
String PdfPath = "multi_page.pdf";

DocumentRecognitionSettings set = new DocumentRecognitionSettings(1);

// Reconhecer o arquivo PDF de entrada com o método RecognizePdf
ArrayList<RecognitionResult> result = api.RecognizePdf(PdfPath, set);

String text = "";

// Imprimir resultado
for(RecognitionResult page : result) {
        text.concat(page.recognitionAreasText.toString());
}

// Inicialize o documento do Word com a classe Document.
Document doc = new Document();
DocumentBuilder builder = new DocumentBuilder(doc);

// Especificar a formatação da fonte
Font font = builder.getFont();
font.setSize(16);
font.setColor(java.awt.Color.BLUE);
font.setName("Arial");

// Especificar formatação de parágrafo
ParagraphFormat paragraphFormat = builder.getParagraphFormat();
paragraphFormat.setFirstLineIndent(8);
paragraphFormat.setAlignment(ParagraphAlignment.JUSTIFY);
paragraphFormat.setKeepTogether(true);
builder.writeln(text);

// Salvar documento do Word de saída. 
doc.save("Scanned_PDF_to_Word_Java.docx");

Obtenha Licença Temporária Gratuita

Você pode avaliar as APIs sem limitações solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você explorou como converter um arquivo PDF digitalizado em um documento do Word como arquivo DOCX ou DOC programaticamente usando Java. Além disso, você pode dar uma olhada em outros recursos relacionados ao OCR visitando a documentação. Em caso de dúvidas, sinta-se à vontade para nos contatar no fórum.

Veja também

Informações: Você pode estar interessado em outra API Java (Aspose.Slides for Java) que permite converter apresentações (em PDFs, documentos do Word, etc.) e importar imagens ou outros documentos em apresentações.