PDF para Word OCR Python

A conversão de PDFs digitalizados para documentos do Word oferece várias vantagens, como editar o texto no documento, facilitando as alterações ou atualizações. Ele também permite a capacidade de pesquisa de texto, o que é inestimável para documentos grandes ou ao realizar pesquisas. Além disso, você também pode executar a verificação ortográfica para corrigir quaisquer erros de digitação ou palavras incorretas durante a execução do OCR em Python. Da mesma forma, este artigo explica como converter PDF digitalizado em documento do Word com OCR em Python usando a biblioteca Aspose.OCR for Python via .NET.

PDF para Word com OCR – Instalação da API Python

Antes de mergulharmos no reconhecimento de texto, vamos garantir que temos o ambiente necessário configurado para executar o OCR em Python. Certifique-se de ter o Python instalado em seu sistema, preferencialmente versão 3.x ou posterior, junto com um editor de código confiável ou ambiente de desenvolvimento integrado (IDE), como Visual Studio Code ou IDLE, etc. Em seguida, você precisa configurar o Aspose.OCR para Python via .NET ao acessá-lo na seção New Releases ou em PyPi com o seguinte comando de instalação:

pip install aspose-ocr-python-net

Converter PDF digitalizado para Word com OCR em Python

Você pode converter um PDF digitalizado para Word com OCR seguindo as etapas abaixo:

  1. Inicialize a API usando a classe AsposeOcr.
  2. Defina configurações diferentes para o reconhecimento.
  3. Reconheça o texto com OCR e salve o arquivo DOCX Word de saída.

O trecho de código a seguir demonstra como converter PDF escaneado para Word com OCR em Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF para Word com OCR e verificação ortográfica em Python

Os mecanismos de OCR às vezes podem produzir imprecisões, especialmente ao lidar com layouts complexos, manuscritos ou digitalizações de baixa qualidade. Nesses casos, a correção ortográfica desempenha um papel crucial na melhoria da precisão do texto convertido. Esta seção aborda especificamente a conversão de PDF para Word com OCR e o recurso de verificação ortográfica em Python. Você precisa seguir as etapas abaixo para atender a esses requisitos:

  1. Inicialize uma instância da classe AsposeOcr.
  2. Defina diferentes propriedades usando a classe RecognitionSettings.
  3. Reconheça o PDF com OCR e verifique a ortografia da string extraída.
  4. Exporte o documento de saída do Word no formato DOCX.

O código de amostra abaixo explica como converter um PDF em um documento do Word com OCR em Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Obtenha uma licença de avaliação gratuita

Você pode obter uma licença temporária gratuita para evitar quaisquer limitações de avaliação e marcas d’água.

Resumindo

Nesta postagem do blog, exploramos como converter PDFs digitalizados em documentos do Word usando OCR em Python. Discutimos a importância do OCR e seus benefícios, fornecemos um guia passo a passo para configurar o ambiente, extrair texto do documento PDF com diferentes abordagens, especificar várias configurações e salvá-lo em um documento do Word. Este guia permite automatizar a conversão de PDFs digitalizados em documentos editáveis do Word usando Python e OCR, abrindo um mundo de possibilidades para extração e manipulação de dados. Caso precise discutir qualquer uma de suas preocupações, sinta-se à vontade para nos escrever no fórum de suporte gratuito.

Veja também