Converter PDF digitalizado em PDF pesquisável com OCR em Java

Às vezes, os arquivos PDF são criados usando imagens de um scanner ou dispositivo de câmera. Em determinadas situações, pode ser necessário converter um arquivo PDF digitalizado em um arquivo PDF pesquisável com OCR, para que você possa trabalhar com conteúdo de texto no arquivo PDF. De acordo com isso, este artigo aborda como converter um PDF digitalizado em um PDF pesquisável pelo recurso OCR programaticamente usando Java.

PDF digitalizado para PDF pesquisável por OCR – Instalação da API Java
Converter PDF digitalizado em PDF pesquisável programaticamente em Java

PDF digitalizado para PDF pesquisável por OCR – Instalação da API Java

Você pode reconhecer opticamente o texto em um arquivo PDF com o recurso OCR usando a API Aspose.OCR for Java. Basta instalar a API baixando o arquivo JAR da seção New Releases ou usando as especificações do Maven abaixo:

Repositório:

<repository>
    <id>AsposeJavaAPI</id>
    <name>Aspose Java API</name>
    <url>http://repository.aspose.com/repo/</url>
</repository>

Dependência:

<dependency>
    <groupId>com.aspose</groupId>
    <artifactId>aspose-ocr</artifactId>
    <version>21.12</version>
</dependency>

Converter PDF digitalizado em PDF pesquisável programaticamente usando Java

Você pode reconhecer o conteúdo de um arquivo PDF digitalizado com OCR. Isso permite converter um arquivo PDF digitalizado em um documento PDF pesquisável com as seguintes etapas:

Crie um objeto de classe AsposeOcr.
Reconheça os dados do PDF digitalizado com o método RecognizePdf.
Defina os números de página para reconhecimento de OCR usando a classe DocumentRecognitionSettings.
Salve o resultado do OCR de saída como um arquivo PDF pesquisável.

O trecho de código a seguir explica como converter um PDF digitalizado em um arquivo PDF pesquisável programaticamente em Java:

// Caminho PDF de várias páginas digitalizado
String fullPath = "multi_page.pdf";

// Inicialize o objeto da classe AsposeOcr
AsposeOCRPdf api = new AsposeOCRPdf();

DocumentRecognitionSettings settings = new DocumentRecognitionSettings(0,1);

// Reconhecer imagens de PDF           
ArrayList<RecognitionResult> res = api.RecognizePdf(fullPath, settings);

// Salvar resultado como PDF pesquisável
AsposeOCR.SaveMultipageDocument("output.pdf", Format.Pdf, res);

Obtenha Licença de Avaliação Gratuita

Você pode avaliar o recurso para reconhecer texto em PDF digitalizado com operações de OCR sem limitações solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você aprendeu como converter um arquivo PDF digitalizado em um documento PDF pesquisável com o recurso OCR programaticamente em Java. Além disso, você pode dar uma olhada em outros recursos relacionados ao OCR da API visitando a documentação. Sinta-se à vontade para nos escrever no fórum em caso de dúvidas.

Veja também

Reconhecer texto executando OCR na imagem do URL com Java

PDF digitalizado para PDF pesquisável por OCR – Instalação da API Java#

Converter PDF digitalizado em PDF pesquisável programaticamente usando Java#

Obtenha Licença de Avaliação Gratuita#

Conclusão#

Veja também#

PDF digitalizado para PDF pesquisável por OCR – Instalação da API Java

Converter PDF digitalizado em PDF pesquisável programaticamente usando Java

Obtenha Licença de Avaliação Gratuita

Conclusão

Veja também