OCR PDF Python

Documentos PDF digitalizados geralmente são difíceis de trabalhar devido à falta de texto pesquisável ou editável. No entanto, com o poder da tecnologia de reconhecimento óptico de caracteres (OCR), extrair texto de PDFs digitalizados e convertê-los em formatos pesquisáveis ou editáveis torna-se uma realidade. Nesta postagem do blog, você aprenderá como executar o reconhecimento de texto em PDF com OCR em Python. Também exploraremos como extrair texto de arquivos PDF digitalizados, convertê-los em PDFs pesquisáveis ou editáveis e liberar o potencial dos recursos de OCR do Python usando a biblioteca Aspose.OCR para Python via .NET.

Reconhecer texto de PDF digitalizado com OCR – instalação da API Python

O reconhecimento óptico de caracteres (OCR) é uma tecnologia que permite a conversão de imagens ou documentos digitalizados em texto legível por máquina. Ao analisar as formas e padrões dos caracteres em uma imagem, os algoritmos de OCR identificam e reconhecem o texto, tornando possível extrair e processar as informações contidas nele. Antes de começar, você precisa instalar o Aspose.OCR para Python via .NET baixando-o da página New Releases ou configurá-lo de PyPi executando o comando de instalação abaixo:

pip install aspose-ocr-python-net

Reconhecer texto de PDF com OCR em Python

Você pode reconhecer ou extrair texto de PDF com OCR em Python. Ele extrairá o texto de um documento PDF digitalizado com eficiência, pois as etapas abaixo descrevem o processo simples para reconhecer texto de PDF com OCR em Python:

  1. Instanciar um objeto da classe AsposeOcr.
  2. Carregue o arquivo PDF digitalizado.
  3. Reconheça o texto com OCR e imprima a saída no console.

O código de exemplo abaixo mostra como reconhecer texto de PDF com OCR em Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Converta PDF digitalizado em PDF pesquisável ou editável com OCR em Python

Os arquivos PDF digitalizados contêm imagens nas quais você não pode pesquisar o texto, portanto, é necessário convertê-lo em um documento PDF pesquisável para tornar o documento legível por máquina e processá-lo adequadamente. Siga as etapas abaixo para convertê-lo em um documento PDF pesquisável ou editável em Python:

  1. Crie um objeto da classe AsposeOcr.
  2. Inicialize a instância da classe [RecognitionSettings][5] e defina as propriedades necessárias.
  3. Carregue o arquivo PDF e defina o intervalo de páginas para reconhecimento com OCR.
  4. Salve o arquivo PDF pesquisável de saída.

O exemplo de código a seguir mostra como converter um PDF digitalizado em um documento PDF pesquisável com OCR em Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Aqui é digno de nota que você pode fazer OCR em qualquer intervalo de páginas no documento PDF. Por exemplo, reconhecer texto de páginas específicas apenas onde o índice da página é baseado em zero e o último parâmetro é a contagem do número de páginas a serem processadas com a API. Além disso, você pode definir diferentes configurações de reconhecimento para o pré-processamento do arquivo de origem, como remover o ruído, definir o contraste, verificar a inclinação das páginas de entrada etc. para reconhecimento aprimorado e preciso do texto com o OCR.

Obtenha uma licença de avaliação gratuita

Você pode solicitar uma licença temporária gratuita para avaliar a API sem quaisquer limitações de avaliação.

Resumindo

Com o poder da tecnologia OCR e do Python, extrair texto de PDFs digitalizados e convertê-los em formatos pesquisáveis ou editáveis tornou-se altamente acessível. Aqui exploramos o processo de reconhecimento de texto PDF com OCR em Python. Discutimos o processo de instalação e extração de texto de PDFs digitalizados, implementação de OCR e conversão de PDFs digitalizados para formatos pesquisáveis ou editáveis. Aproveitando os recursos de OCR e empregando técnicas avançadas, você pode liberar todo o potencial dos PDFs digitalizados e torná-los mais acessíveis e versáteis em seus projetos. Em caso de dúvidas ou dúvidas, entre em contato conosco através do fórum de suporte gratuito.

Veja também