PDF digitalizado para Excel OCR Java

Arquivos PDF digitalizados incluem dados em formato de imagem porque geralmente são criados por scanners. Em determinadas situações, você pode exigir informações numéricas de um arquivo PDF digitalizado. Assim, você pode executar operações de OCR para criar um arquivo do Excel. Este artigo aborda como criar um conversor digitalizado de PDF para Excel com recurso OCR programaticamente em Java.

Crie um conversor digitalizado de PDF para Excel com OCR – Instalação da API Java

Você pode reconhecer opticamente o texto em um arquivo PDF com o recurso OCR usando a API Aspose.OCR for Java. Basta instalar a API baixando o arquivo JAR da seção New Releases ou usando as especificações do Maven abaixo:

Repositório:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependência:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Converter PDF digitalizado para Excel programaticamente em Java

Você pode converter um arquivo PDF digitalizado para Excel com OCR seguindo as etapas abaixo:

  1. Crie um objeto de classe AsposeOcr.
  2. Especifique as configurações com a classe DocumentRecognitionSettings.
  3. Reconheça o arquivo PDF digitalizado usando o método RecognizePdf.
  4. Salve o resultado do OCR de saída como um arquivo Excel.

O trecho de código a seguir explica como converter um PDF digitalizado em um arquivo do Excel programaticamente em Java:

// Caminho do arquivo PDF digitalizado
String fullPath = "scanned.pdf";

// Inicialize o objeto da classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

// Inicializar o objeto da classe DocumentRecognitionSettings
DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Reconhecer imagens de PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Salvar resultado como arquivo Excel XLSX
AsposeOCR.SaveMultipageDocument("output.xlsx", Format.Xlsx, res);

Obtenha Licença de Avaliação Gratuita

Você pode avaliar a API para criar um conversor de PDF para Excel digitalizado por operações de OCR sem quaisquer limitações solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você aprendeu como converter um arquivo PDF digitalizado em um arquivo Excel com o recurso OCR programaticamente em Java. Além disso, dê uma olhada em outros recursos relacionados ao OCR visitando a documentação. Sinta-se à vontade para nos escrever no fórum em caso de dúvidas.

Veja também