pdf digitalizado para texto csharp

Um arquivo PDF digitalizado é basicamente uma ou mais imagens planas capturadas por um scanner ou uma câmera. Você não pode copiar, colar ou processar informações desses arquivos. Este artigo aborda como converter um PDF digitalizado em texto em C#.

Conversor de PDF para texto digitalizado – Instalação da API C#

Aspose.OCR for .NET API é usada para realizar operações de OCR. Ele pode reconhecer os caracteres opticamente de imagens ou documentos PDF digitalizados. Configure a API baixando o arquivo DLL da seção New Releases ou com o seguinte comando de instalação NuGet.

PM> Install-Package Aspose.OCR

Converter PDF digitalizado em string de texto em C#

Você pode converter um arquivo PDF digitalizado em uma sequência de texto executando operações de OCR nele. Você precisa seguir as etapas abaixo para imprimir o texto de um documento PDF digitalizado:

  1. Especifique a configuração para reconhecer o arquivo PDF digitalizado.
  2. Inicialize a instância da classe AsposeOcr.
  3. Inicialize o objeto de classe RecognitionResult.
  4. Imprima o texto depois de reconhecê-lo do PDF digitalizado.

O trecho de código a seguir mostra como reconhecer texto de PDF digitalizado em C#:

// Inicialize a instância da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Especifique a configuração para reconhecer o arquivo PDF digitalizado
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inicializar o objeto de classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Imprima o texto depois de reconhecê-lo do PDF digitalizado
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Converter PDF digitalizado para arquivo TXT programaticamente em C#

Você pode converter um arquivo PDF digitalizado em um arquivo TXT com as seguintes etapas:

  1. Instancie o objeto de classe AsposeOcr.
  2. Crie um objeto de classe DocumentRecognitionSettings.
  3. Salve os resultados do reconhecimento e inicialize a instância da classe StringBuilder.
  4. Salve o resultado em um arquivo TXT.

O trecho de código abaixo explica como converter um arquivo PDF digitalizado em um arquivo TXT programaticamente em C#:

// Inicialize a instância da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconhecer imagens de PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salvar resultados de reconhecimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inicialize o objeto da classe StringBuilder
StringBuilder builder = new StringBuilder();

// Salvar o resultado em um arquivo TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Obtenha Licença de Avaliação Gratuita

Você pode solicitar uma licença de avaliação gratuita para testar a API em sua capacidade total.

Conclusão

Neste artigo, você aprendeu como converter PDF digitalizado em uma string de texto ou um arquivo de texto programaticamente usando C#. Além disso, você pode verificar vários outros recursos da API visitando a documentação. Sinta-se à vontade para entrar em contato conosco no fórum em caso de dúvidas.

Veja também