PDF digitalizado para pesquisável com OCR em C#

Os arquivos PDF às vezes são baseados em imagens que geralmente são criadas usando um scanner ou dispositivo de imagem. Você pode converter um arquivo PDF digitalizado em um arquivo PDF pesquisável com OCR para que o texto possa ser editado ou atualizado no documento. De acordo com esse cenário, este artigo explica como converter um PDF digitalizado em um PDF pesquisável por operações de OCR programaticamente usando C#.

PDF digitalizado para PDF pesquisável por OCR – Instalação da API C#

Você pode realizar operações de OCR em um arquivo PDF digitalizado com a API Aspose.OCR for .NET. Basta configurar a API baixando o arquivo DLL da seção New Releases ou usando o seguinte comando de instalação do NuGet:

PM> Install-Package Aspose.OCR

Converter PDF digitalizado em PDF pesquisável programaticamente usando C#

Você pode converter um arquivo PDF digitalizado em um documento PDF pesquisável enquanto reconhece opticamente o texto seguindo as etapas abaixo:

  1. Inicialize a instância da classe AsposeOcr.
  2. Reconheça imagens de PDF usando o método RecognizePdf.
  3. Defina diferentes propriedades para reconhecimento de OCR com a classe DocumentRecognitionSettings.
  4. Salve o resultado do OCR como um arquivo PDF pesquisável.

O trecho de código abaixo explica como converter um PDF digitalizado em um documento PDF pesquisável programaticamente usando C#:

// Caminho PDF de várias páginas digitalizado
string fullPath = "multi_page.pdf";

// Inicialize o objeto da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconhecer imagens de PDF           
List<RecognitionResult> res = api.RecognizePdf(fullPath, new DocumentRecognitionSettings
{
    StartPage = 0,
    PagesNumber = 1
});

// Salvar resultado como PDF pesquisável
AsposeOcr.SaveMultipageDocument("output.pdf", SaveFormat.Pdf, res);

Obtenha Licença de Avaliação Gratuita

Você pode avaliar o recurso para reconhecer texto em PDF digitalizado com operações de OCR sem quaisquer limitações solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você aprendeu como converter um arquivo PDF digitalizado em um documento PDF pesquisável executando operações de OCR nele programaticamente em C#. Além disso, você pode verificar vários outros recursos relacionados ao OCR oferecidos pela API visitando a documentação. Sinta-se à vontade para nos contatar no fórum em caso de dúvidas.

Veja também