OCR PDF e extrair texto de PDF em Python

A tecnologia de reconhecimento óptico de caracteres (OCR) desempenha um papel fundamental na digitalização de textos impressos, digitalizados ou manuscritos de diversas fontes, incluindo documentos PDF. Nesta postagem do blog, aprenderemos como fazer OCR de documentos PDF e extrair texto de PDF em Python.

Este artigo cobre os seguintes tópicos:

  1. API de OCR de PDF para TXT Python
  2. OCR PDF e extrair texto de PDF
  3. Salvar PDF digitalizado em texto
  4. Recursos de aprendizagem gratuitos

PDF para TXT - API Python OCR

Usaremos o Aspose.OCR for Python para realizar OCR em documentos PDF e extrair texto de PDFs. Aspose.OCR para Python é uma poderosa API de reconhecimento óptico de caracteres (OCR) que pode reconhecer texto de imagens digitalizadas, fotos de smartphones, capturas de tela e áreas de imagens. A API retorna resultados de texto reconhecidos nos formatos de troca de dados e documentos mais populares, incluindo PDF, XML, JSON e texto simples.

Além de converter imagens em texto, o Aspose.OCR para Python também pode criar PDFs pesquisáveis com base em digitalizações. A API também pode corrigir automaticamente erros ortográficos em textos reconhecidos, tornando-a ideal para uma variedade de aplicações.

Por favor baixe o pacote ou instale a API de PyPI usando o seguinte comando pip no console:

pip install aspose-ocr-python-net

Python OCR PDF - Extraia texto de PDF em Python

Podemos realizar OCR em documentos PDF e extrair o texto reconhecido seguindo as etapas abaixo:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Adicione o arquivo PDF ao lote de reconhecimento.
  4. Depois disso, chame o método reconhecer().
  5. Por fim, mostre o texto identificado usando a classe RecognitionResult.

O código de exemplo a seguir mostra como fazer OCR de documentos PDF e extrair texto de PDF em Python.

# Este exemplo de código demonstra como reconhecer e extrair texto de um documento PDF digitalizado em Python.
import aspose.ocr as ocr

# Inicializar mecanismo de OCR
api = ocr.AsposeOcr()

# Inicializar configurações de reconhecimento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Adicionar arquivo ao lote de reconhecimento
files = ocr.OcrInput(ocr.InputType.PDF)

# Acesse o PDF digitalizado e defina o número da página e o número total de páginas
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconhecer o texto
result = api.recognize(files , settings)

# Imprimir resultado de reconhecimento
print(result[0].recognition_text)

Python OCR PDF - Salvar PDF digitalizado em texto em Python

Podemos realizar OCR em documentos PDF e salvar o texto reconhecido seguindo as etapas abaixo:

  1. Crie uma instância da classe AsposeOcr.
  2. Inicialize um objeto da classe DocumentRecognitionSettings.
  3. Adicione o arquivo PDF ao lote de reconhecimento.
  4. Depois disso, chame o método reconhecer().
  5. Por fim, salve o texto usando o método savemultipagedocument(). Ele usa o caminho do arquivo de saída, o objeto SaveFormat e RecognitionResult como argumentos.

O código de exemplo a seguir mostra como fazer OCR de documentos PDF e salvar o texto reconhecido em Python.

# Este exemplo de código demonstra como salvar o reconhecimento e extrair texto usando Python.
import aspose.ocr as ocr

# Inicializar mecanismo de OCR
api = ocr.AsposeOcr()

# Inicializar configurações de reconhecimento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Adicionar arquivo ao lote de reconhecimento
files = ocr.OcrInput(ocr.InputType.PDF)

# Acesse o PDF digitalizado e defina o número da página e o número total de páginas
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconhecer o texto
result = api.recognize(files , settings)

# Imprimir resultado de reconhecimento
print(result[0].recognition_text)

# Salve o texto extraído
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Obtenha uma licença de avaliação gratuita

Você pode obter uma licença temporária gratuita para experimentar a biblioteca sem limitações de avaliação.

PDF OCR Python - Recursos gratuitos

Você pode explorar ainda mais os seguintes recursos para aprender a API Python OCR:

Conclusão

Neste artigo, aprendemos como realizar OCR em documentos PDF e extrair texto de PDF em Python. A capacidade de extrair texto de PDFs usando OCR é uma virada de jogo em vários setores, desde arquivamento e documentação legal até análise de dados e digitalização de conteúdo. Ao aproveitar o Aspose.OCR para Python, os desenvolvedores e entusiastas podem integrar perfeitamente os recursos de OCR em seus projetos Python. Em caso de qualquer ambigüidade, sinta-se à vontade para nos contatar em nosso fórum de suporte gratuito.

Veja também