pdf digitalizado para texto csharp

Um arquivo PDF digitalizado é basicamente uma ou mais imagens planas capturadas por um scanner ou uma câmera. Você não pode copiar, colar ou processar informações desses arquivos. Este artigo aborda como converter um PDF digitalizado em texto em C#.

PDF digitalizado para conversão de texto - instalação da API C#

A API Aspose.OCR for .NET é usada para executar operações de OCR. Ele pode reconhecer os caracteres opticamente de imagens ou documentos PDF digitalizados. Configure a API baixando o arquivo DLL da seção New Releases ou com o seguinte comando de instalação NuGet.

PM> Install-Package Aspose.OCR

Converter PDF digitalizado em string de texto em C#

Você pode converter um arquivo PDF digitalizado em uma sequência de texto executando operações de OCR nele. Você precisa seguir as etapas abaixo para imprimir o texto de um documento PDF digitalizado:

  1. Especifique a configuração para reconhecer o arquivo PDF digitalizado.
  2. Inicialize a instância da classe AsposeOcr.
  3. Inicialize o objeto de classe RecognitionResult.
  4. Imprima o texto após reconhecê-lo de um PDF digitalizado.

O trecho de código a seguir mostra como reconhecer o texto do PDF digitalizado em C#:

// Inicializar a instância da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Especifique a configuração para reconhecer o arquivo PDF digitalizado
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Inicializar o objeto da classe RecognitionResult
List<RecognitionResult> result = api.RecognizePdf("pages.pdf", set);

// Imprima o texto após reconhecê-lo do PDF digitalizado
int pageNumber = 0;
foreach (RecognitionResult page in result)
{
    System.Console.WriteLine($"Page: {pageNumber++} text: {page.RecognitionText}");
}

Converter PDF digitalizado para arquivo TXT programaticamente em C#

Você pode converter um arquivo PDF digitalizado em um arquivo TXT com as seguintes etapas:

  1. Instancie o objeto de classe AsposeOcr.
  2. Crie um objeto de classe DocumentRecognitionSettings.
  3. Salve os resultados do reconhecimento e inicialize a instância da classe StringBuilder.
  4. Salve o resultado em um arquivo TXT.

O trecho de código abaixo explica como converter um arquivo PDF digitalizado em um arquivo TXT programaticamente em C#:

// Inicializar a instância da classe AsposeOcr
AsposeOcr api = new AsposeOcr();

// Reconhecer imagens de PDF           
DocumentRecognitionSettings set = new DocumentRecognitionSettings();
set.DetectAreas = false;

// Salvar resultados de reconhecimento
List<RecognitionResult> result = api.RecognizePdf("multi_page_1.pdf", set);

// Inicializar o objeto da classe StringBuilder
StringBuilder builder = new StringBuilder();

// Salve o resultado em um arquivo TXT
foreach (RecognitionResult page in result)
{
    builder.Append(page.RecognitionText);
}

System.IO.File.WriteAllText("Text.txt", builder.ToString());

Obtenha licença de avaliação gratuita

Você pode solicitar uma licença de avaliação gratuita para testar a API em sua capacidade total.

Conclusão

Neste artigo, você aprendeu como converter um PDF digitalizado em uma string de texto ou arquivo de texto programaticamente usando C#. Além disso, você pode conferir diversos outros recursos da API acessando documentação. Sinta-se à vontade para nos contatar em forum em caso de dúvidas.

Veja também