Um arquivo PDF é um dos documentos comerciais mais comuns. Em certos casos, podemos precisar ler documentos PDF digitalizados programaticamente. A dificuldade de extrair texto de arquivos PDF digitalizados levou ao desenvolvimento de ferramentas que facilitam a leitura e recuperação de texto desses documentos PDF. Dependendo do conteúdo do seu documento, extrair texto de arquivos PDF pode ser útil por vários motivos. Neste artigo, aprenderemos como fazer o OCR de documentos PDF e extrair texto de PDF em C#.
Os seguintes tópicos serão abordados neste artigo:
- PDF de OCR para API de texto C#
- OCR PDF e extrair texto do PDF
- Realize OCR em PDF e salve o texto
- OCR PDF para arquivo do Word
- OCR PDF para JSON
OCR PDF para API de texto C#
Estaremos usando a API Aspose.OCR for .NET para executar o OCR no documento PDF. Ele pode reconhecer imagens digitalizadas, fotos de smartphones, capturas de tela e áreas de imagens. A API retorna resultados de texto reconhecidos nos formatos de troca de dados e documentos mais populares. Além de converter imagens em texto, a API também pode criar PDFs pesquisáveis com base em digitalizações. Além disso, é capaz de corrigir automaticamente erros de ortografia em textos reconhecidos.
A API fornece a classe AsposeOcr que fornece vários métodos para executar operações de OCR. Ele fornece o método RecognizePdf(string, DocumentRecognitionSettings) para reconhecer o texto do documento PDF fornecido. A classe DocumentRecognitionSettings da API fornece configurações para o processo de reconhecimento de PDF. A classe RecognitionResult representa os resultados do reconhecimento da imagem.
Por favor, baixe a DLL da API ou instale-a usando NuGet.
PM> Install-Package Aspose.OCR
OCR PDF e extrair texto de PDF em C#
Podemos executar o OCR em documentos PDF e extrair o texto reconhecido seguindo as etapas abaixo:
- Em primeiro lugar, crie uma instância da classe AsposeOcr.
- Em seguida, inicialize um objeto da classe DocumentRecognitionSettings.
- Em seguida, especifique o idioma a ser usado para OCR.
- Depois disso, obtenha o RecognitionResult chamando o método RecognizePdf(). Ele usa o caminho da imagem e o objeto DocumentRecognitionSettings como argumentos.
- Por fim, percorra a lista RecognitionResult e mostre o texto identificado.
O código de amostra a seguir mostra como fazer o OCR de documentos PDF e extrair o texto reconhecido em C#.
// Este exemplo de código demonstra como fazer OCR em documentos PDF e extrair o texto reconhecido.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;
// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Mostrar o texto reconhecido
foreach (RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
Executar OCR em PDF e salvar texto em C#
Podemos executar o OCR em documentos PDF e salvar o texto reconhecido seguindo as etapas abaixo:
- Em primeiro lugar, crie uma instância da classe AsposeOcr.
- Em seguida, inicialize um objeto da classe DocumentRecognitionSettings.
- Em seguida, especifique o idioma a ser usado para OCR.
- Depois disso, chame o método RecognizePdf() para obter o RecognitionResult. Ele usa o caminho da imagem e o objeto DocumentRecognitionSettings como argumentos.
- Por fim, salve o texto usando o método SaveMultipageDocument(). Ele usa o caminho do arquivo de saída, o objeto SaveFormat e RecognitionResult como argumentos.
O código de amostra a seguir mostra como fazer OCR em documentos PDF e salvar o texto reconhecido em C#.
// Este exemplo de código demonstra como fazer OCR em documentos PDF e extrair o texto reconhecido.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;
// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Salve o texto reconhecido
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
OCR PDF e conversão de PDF digitalizado para Word em C#
Podemos executar o OCR em documentos PDF digitalizados e salvar o texto reconhecido no documento do Word seguindo as etapas mencionadas anteriormente. No entanto, só precisamos especificar o SaveFormat.Docx na última etapa.
O código de exemplo a seguir mostra como fazer OCR em PDF e salvar o texto reconhecido como um documento do Word em C#.
// Este exemplo de código demonstra como fazer OCR em documentos PDF e salvar o texto reconhecido como DOCX.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;
// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Salve o texto reconhecido como DOCX
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
OCR PDF e converter PDF para JSON em C#
Podemos realizar OCR em documentos PDF e salvar o texto reconhecido em um arquivo JSON seguindo as etapas mencionadas anteriormente. No entanto, só precisamos especificar o SaveFormat.Json na última etapa.
O código de exemplo a seguir mostra como fazer OCR em PDF e salvar o texto reconhecido como um arquivo JSON em C#.
// Este exemplo de código demonstra como fazer OCR em documentos PDF e salvar o texto reconhecido como JSON.
// Inicializar o mecanismo de PCR
AsposeOcr recognitionEngine = new AsposeOcr();
// Inicializar configurações de reconhecimento
DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings();
// Especifique o idioma para OCR. Multilíngue por padrão
recognitionSettings.Language = Language.Eng;
// Reconhecer texto de PDF
List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings);
// Salve o texto reconhecido como JSON
AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
Obtenha uma licença de avaliação gratuita
Você pode obter uma licença temporária gratuita para experimentar a biblioteca sem limitações de avaliação.
Conclusão
Neste artigo, aprendemos como executar OCR em documentos PDF e extrair texto de PDF em C#. Também vimos como salvar o texto reconhecido como um arquivo TXT, DOCX e JSON. Além disso, você pode aprender mais sobre Aspose.OCR para .NET API usando documentação. Em caso de ambiguidade, sinta-se à vontade para nos contatar em nosso fórum.