OCR PDF e extrair texto de PDF em C#

Um arquivo PDF é um dos documentos comerciais mais comuns. Em certos casos, podemos precisar ler documentos PDF digitalizados programaticamente. A dificuldade de extrair texto de arquivos PDF digitalizados levou ao desenvolvimento de ferramentas que facilitam a leitura e recuperação de texto desses documentos PDF. Dependendo do conteúdo do seu documento, extrair texto de arquivos PDF pode ser útil por vários motivos. Neste artigo, aprenderemos como fazer o OCR de documentos PDF e extrair texto de PDF em C#.

Os seguintes tópicos serão abordados neste artigo:

  1. PDF de OCR para API de texto C#
  2. OCR PDF e extrair texto do PDF
  3. Realize OCR em PDF e salve o texto
  4. OCR PDF para arquivo do Word
  5. OCR PDF para JSON

OCR PDF para API de texto C#

Estaremos usando a API Aspose.OCR for .NET para executar o OCR no documento PDF. Ele pode reconhecer imagens digitalizadas, fotos de smartphones, capturas de tela e áreas de imagens. A API retorna resultados de texto reconhecidos nos formatos de troca de dados e documentos mais populares. Além de converter imagens em texto, a API também pode criar PDFs pesquisáveis com base em digitalizações. Além disso, é capaz de corrigir automaticamente erros de ortografia em textos reconhecidos.

A API fornece a classe AsposeOcr que fornece vários métodos para executar operações de OCR. Ele fornece o método RecognizePdf(string, DocumentRecognitionSettings) para reconhecer o texto do documento PDF fornecido. A classe DocumentRecognitionSettings da API fornece configurações para o processo de reconhecimento de PDF. A classe RecognitionResult representa os resultados do reconhecimento da imagem.

Por favor, baixe a DLL da API ou instale-a usando NuGet.

PM> Install-Package Aspose.OCR

OCR PDF e extrair texto de PDF em C#

Podemos executar o OCR em documentos PDF e extrair o texto reconhecido seguindo as etapas abaixo:

  1. Em primeiro lugar, crie uma instância da classe AsposeOcr.
  2. Em seguida, inicialize um objeto da classe DocumentRecognitionSettings.
  3. Em seguida, especifique o idioma a ser usado para OCR.
  4. Depois disso, obtenha o RecognitionResult chamando o método RecognizePdf(). Ele usa o caminho da imagem e o objeto DocumentRecognitionSettings como argumentos.
  5. Por fim, percorra a lista RecognitionResult e mostre o texto identificado.

O código de amostra a seguir mostra como fazer o OCR de documentos PDF e extrair o texto reconhecido em C#.

// Este exemplo de código demonstra como fazer OCR em documentos PDF e extrair o texto reconhecido.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;

// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Mostrar o texto reconhecido
foreach (RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}
OCR PDF e extrair texto de PDF em C#

OCR PDF e extrair texto de PDF em C#

Executar OCR em PDF e salvar texto em C#

Podemos executar o OCR em documentos PDF e salvar o texto reconhecido seguindo as etapas abaixo:

  1. Em primeiro lugar, crie uma instância da classe AsposeOcr.
  2. Em seguida, inicialize um objeto da classe DocumentRecognitionSettings.
  3. Em seguida, especifique o idioma a ser usado para OCR.
  4. Depois disso, chame o método RecognizePdf() para obter o RecognitionResult. Ele usa o caminho da imagem e o objeto DocumentRecognitionSettings como argumentos.
  5. Por fim, salve o texto usando o método SaveMultipageDocument(). Ele usa o caminho do arquivo de saída, o objeto SaveFormat e RecognitionResult como argumentos.

O código de amostra a seguir mostra como fazer OCR em documentos PDF e salvar o texto reconhecido em C#.

// Este exemplo de código demonstra como fazer OCR em documentos PDF e extrair o texto reconhecido.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;

// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salve o texto reconhecido
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
Executar OCR em PDF e salvar texto em C#

Executar OCR em PDF e salvar texto em C#

OCR PDF e conversão de PDF digitalizado para Word em C#

Podemos executar o OCR em documentos PDF digitalizados e salvar o texto reconhecido no documento do Word seguindo as etapas mencionadas anteriormente. No entanto, só precisamos especificar o SaveFormat.Docx na última etapa.

O código de exemplo a seguir mostra como fazer OCR em PDF e salvar o texto reconhecido como um documento do Word em C#.

// Este exemplo de código demonstra como fazer OCR em documentos PDF e salvar o texto reconhecido como DOCX.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;

// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salve o texto reconhecido como DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF e conversão de PDF digitalizado para Word em C#

OCR PDF e conversão de PDF digitalizado para Word em C#

OCR PDF e converter PDF para JSON em C#

Podemos realizar OCR em documentos PDF e salvar o texto reconhecido em um arquivo JSON seguindo as etapas mencionadas anteriormente. No entanto, só precisamos especificar o SaveFormat.Json na última etapa.

O código de exemplo a seguir mostra como fazer OCR em PDF e salvar o texto reconhecido como um arquivo JSON em C#.

// Este exemplo de código demonstra como fazer OCR em documentos PDF e salvar o texto reconhecido como JSON.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();

// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();

// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;

// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);

// Salve o texto reconhecido como JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);

Obtenha uma licença de avaliação gratuita

Você pode obter uma licença temporária gratuita para experimentar a biblioteca sem limitações de avaliação.

Conclusão

Neste artigo, aprendemos como executar OCR em documentos PDF e extrair texto de PDF em C#. Também vimos como salvar o texto reconhecido como um arquivo TXT, DOCX e JSON. Além disso, você pode aprender mais sobre Aspose.OCR para .NET API usando documentação. Em caso de ambiguidade, sinta-se à vontade para nos contatar em nosso fórum.

Veja também