PDF a Word OCR Python

La conversión de archivos PDF escaneados a documentos de Word ofrece varias ventajas, como editar el texto dentro del documento, lo que facilita la realización de cambios o actualizaciones. También permite la capacidad de búsqueda de texto, que es invaluable para documentos grandes o cuando se realiza una investigación. Además, también puede realizar una revisión ortográfica para corregir errores tipográficos o palabras mal escritas mientras realiza OCR en Python. En consecuencia, este artículo explica cómo convertir un PDF escaneado a un documento de Word con OCR en Python utilizando la biblioteca Aspose.OCR for Python a través de .NET.

PDF a Word con OCR: instalación de la API de Python

Antes de sumergirnos en el reconocimiento de texto, asegurémonos de tener el entorno necesario configurado para ejecutar OCR en Python. Asegúrese de tener Python instalado en su sistema, preferiblemente la versión 3.x o posterior, junto con un editor de código confiable o un entorno de desarrollo integrado (IDE) como Visual Studio Code o IDLE, etc. Luego, debe configurar Aspose.OCR for Python a través de .NET accediendo desde la sección Novedades o desde PyPi con el siguiente comando de instalación:

pip install aspose-ocr-python-net

Convierta PDF escaneado a Word con OCR en Python

Puede convertir un PDF escaneado a Word con OCR siguiendo los pasos a continuación:

  1. Inicialice la API utilizando la clase AsposeOcr.
  2. Establezca diferentes configuraciones para el reconocimiento.
  3. Reconoce el texto con OCR y guarda el archivo de Word DOCX de salida.

El siguiente fragmento de código demuestra cómo convertir PDF escaneado a Word con OCR en Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "source.pdf", 0, 1)

result = api.recognize(input , settings)

api.save_multipage_document("searchable.docx", ocr.SaveFormat.DOCX, result)

print(result[0].recognition_text)

PDF a Word con OCR y corrector ortográfico en Python

Los motores de OCR a veces pueden producir imprecisiones, especialmente cuando se trata de diseños complejos, escritura a mano o escaneos de baja calidad. En tales casos, la corrección ortográfica juega un papel crucial para mejorar la precisión del texto convertido. Esta sección aborda en particular la conversión de PDF a Word con OCR y la función de revisión ortográfica en Python. Debe seguir los pasos a continuación para cumplir con estos requisitos:

  1. Inicialice una instancia de la clase AsposeOcr.
  2. Establezca diferentes propiedades usando la clase RecognitionSettings.
  3. Reconoce el PDF con OCR y revisa la ortografía de la cadena extraída.
  4. Exporte el documento de Word de salida en formato DOCX.

El siguiente código de muestra explica cómo convertir un PDF a un documento de Word con OCR en Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

input = ocr.OcrInput(ocr.InputType.PDF)
input.add(path + "Spell Check OCR PDF.pdf", 0, 1)

result = api.recognize(input , settings)

corrected = api.correct_spelling(result[0].recognition_text, ocr.spellchecker.SpellCheckLanguage.ENG, None)
# Print the text after spell correction
print(corrected)

# Save each page with spell correction separately
result[0].save("test.docx", ocr.SaveFormat.DOCX, True, ocr.spellchecker.SpellCheckLanguage.ENG, None)

Obtenga una licencia de evaluación gratuita

Puede obtener una licencia temporal gratuita para evitar limitaciones de evaluación y marcas de agua.

Resumiendo

En esta publicación de blog, hemos explorado cómo convertir archivos PDF escaneados a documentos de Word usando OCR en Python. Discutimos la importancia de OCR y sus beneficios, brindamos una guía paso a paso para configurar el entorno, extraer texto del documento PDF con diferentes enfoques mientras especificamos varias configuraciones y lo guardamos en un documento de Word. Esta guía le permite automatizar la conversión de archivos PDF escaneados a documentos de Word editables usando Python y OCR, abriendo un mundo de posibilidades para la extracción y manipulación de datos. En caso de que necesite hablar sobre alguna de sus inquietudes, no dude en escribirnos al foro de soporte gratuito.

Ver también