PDF digitalizado para Excel OCR

Os arquivos PDF digitalizados contêm dados em formato de imagem e, às vezes, você pode precisar de informações desses documentos. Em determinadas situações, um arquivo PDF digitalizado pode conter informações numéricas que podem precisar ser manipuladas no Excel. De acordo com isso, você pode realizar operações de OCR e criar um arquivo Excel. Este artigo aborda como criar um conversor de PDF para Excel digitalizado com recurso de OCR programaticamente usando C#.

Crie um conversor de PDF para Excel digitalizado com OCR – Instalação da API C#

Você pode trabalhar com recursos de OCR oferecidos pela API Aspose.OCR for .NET. Você pode criar facilmente um conversor de PDF para Excel digitalizado com OCR baixando o arquivo DLL da seção New Releases ou com o comando de instalação NuGet abaixo:

PM> Install-Package Aspose.OCR

Converter PDF digitalizado para Excel programaticamente em C#

Você pode converter um documento PDF digitalizado em um arquivo Excel com OCR seguindo as etapas abaixo:

  1. Instancie o objeto de classe AsposeOcr.
  2. Especifique um objeto de classe DocumentRecognitionSettings.
  3. Reconheça o arquivo PDF digitalizado com o método RecognizePdf.
  4. Salve o arquivo Excel de saída usando o método SaveMultipageDocument.

O exemplo de código a seguir explica como converter um PDF digitalizado em Excel usando C#:

// Caminho do arquivo PDF digitalizado
string path = "Scanned.pdf";

// Inicialize o objeto calss AsposeOcr
AsposeOcr api = new AsposeOcr();

// Especifique as configurações para reconhecer o arquivo PDF
DocumentRecognitionSettings settings = new DocumentRecognitionSettings();
settings.StartPage = 0;
settings.PagesNumber = 1;

// Reconhecer páginas do arquivo PDF digitalizado
List<RecognitionResult> res = api.RecognizePdf(path , settings);

// Salve o resultado de saída como um arquivo Excel no formato XLSX
AsposeOcr.SaveMultipageDocument("output.xlsx", SaveFormat.Xlsx, res);

Obtenha Licença de Avaliação Gratuita

Você pode avaliar o recurso de conversão de PDF digitalizado para Excel em sua capacidade total solicitando uma licença temporária gratuita.

Conclusão

Neste artigo, você verificou como converter um arquivo PDF digitalizado para Excel aplicando operações de OCR para reconhecer o texto opticamente. Isso pode ser útil em cenários como quando um arquivo CSV é digitalizado por um scanner e um arquivo PDF é produzido. Você pode convertê-lo em um arquivo do Excel programaticamente usando C#. Além disso, você pode dar uma olhada em outros recursos relacionados ao OCR oferecidos pela API acessando a documentação. Em caso de dúvidas, não hesite em nos contatar no fórum.

Veja também