OCR PDF y extracción de texto de PDF en Python

La tecnología de reconocimiento óptico de caracteres (OCR) desempeña un papel fundamental en la digitalización de texto impreso, escaneado o escrito a mano de diversas fuentes, incluidos documentos PDF. En esta publicación de blog, aprenderemos cómo realizar OCR en documentos PDF y extraer texto de PDF en Python.

Este artículo cubre los siguientes temas:

  1. API de OCR de Python de PDF a TXT
  2. OCR PDF y extraer texto de PDF
  3. Guardar PDF escaneado en texto
  4. Recursos de aprendizaje gratuitos

PDF a TXT: API de OCR de Python

Usaremos Aspose.OCR for Python para realizar OCR en documentos PDF y extraer texto de archivos PDF. Aspose.OCR for Python es una potente API de reconocimiento óptico de caracteres (OCR) que puede reconocer texto de imágenes escaneadas, fotografías de teléfonos inteligentes, capturas de pantalla y áreas de imágenes. La API devuelve resultados de texto reconocidos en los formatos de intercambio de datos y documentos más populares, incluidos PDF, XML, JSON y texto sin formato.

Además de convertir imágenes en texto, Aspose.OCR for Python también puede crear archivos PDF con capacidad de búsqueda basados en escaneos. La API también puede corregir automáticamente errores ortográficos en textos reconocidos, lo que la hace ideal para una variedad de aplicaciones.

Por favor descargue el paquete o instale la API desde PyPI usando el siguiente comando pip en la consola:

pip install aspose-ocr-python-net

Python OCR PDF: extraiga texto de PDF en Python

Podemos realizar OCR en documentos PDF y extraer el texto reconocido siguiendo los pasos que se detallan a continuación:

  1. Cree una instancia de la clase AsposeOcr.
  2. Inicialice un objeto de la clase DocumentRecognitionSettings.
  3. Agregue un archivo PDF al lote de reconocimiento.
  4. Después de eso, llame al método reconocer().
  5. Finalmente, muestra el texto identificado usando la clase RecognitionResult.

El siguiente código de muestra muestra cómo realizar OCR en documentos PDF y extraer texto de PDF en Python.

# Este ejemplo de código demuestra cómo reconocer y extraer texto de un documento PDF escaneado en Python.
import aspose.ocr as ocr

# Inicializar el motor de OCR
api = ocr.AsposeOcr()

# Inicializar configuración de reconocimiento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Agregar archivo al lote de reconocimiento
files = ocr.OcrInput(ocr.InputType.PDF)

# Acceda al PDF escaneado y establezca el número de página y el número total de páginas
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconocer el texto
result = api.recognize(files , settings)

# Resultado del reconocimiento de impresión
print(result[0].recognition_text)

Python OCR PDF: guarde PDF escaneado en texto en Python

Podemos realizar OCR en documentos PDF y guardar el texto reconocido siguiendo los pasos que se detallan a continuación:

  1. Cree una instancia de la clase AsposeOcr.
  2. Inicialice un objeto de la clase DocumentRecognitionSettings.
  3. Agregue un archivo PDF al lote de reconocimiento.
  4. Después de eso, llame al método reconocer().
  5. Finalmente, guarde el texto usando el método savemultipagedocument(). Toma la ruta del archivo de salida, el objeto SaveFormat y RecognitionResult como argumentos.

El siguiente código de muestra muestra cómo realizar OCR en documentos PDF y guardar el texto reconocido en Python.

# Este ejemplo de código demuestra cómo guardar el texto reconocido y extraído usando Python.
import aspose.ocr as ocr

# Inicializar el motor de OCR
api = ocr.AsposeOcr()

# Inicializar configuración de reconocimiento
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Agregar archivo al lote de reconocimiento
files = ocr.OcrInput(ocr.InputType.PDF)

# Acceda al PDF escaneado y establezca el número de página y el número total de páginas
files.add("C:\\Files\\sample.pdf", 0, 1)

# Reconocer el texto
result = api.recognize(files , settings)

# Resultado del reconocimiento de impresión
print(result[0].recognition_text)

# Guarde el texto extraído
api.save_multipage_document("C:\\Files\\sample_out.txt", ocr.SaveFormat.TEXT, result)

Obtenga una licencia de evaluación gratuita

Puede obtener una licencia temporal gratuita para probar la biblioteca sin limitaciones de evaluación.

Python OCR PDF - Recursos gratuitos

Puede explorar más a fondo los siguientes recursos para aprender la API de OCR de Python:

Conclusión

En este artículo, aprendimos cómo realizar OCR en documentos PDF y extraer texto de PDF en Python. La capacidad de extraer texto de archivos PDF utilizando OCR cambia las reglas del juego en numerosas industrias, desde el archivo y la documentación legal hasta el análisis de datos y la digitalización de contenido. Al aprovechar Aspose.OCR for Python, los desarrolladores y entusiastas pueden integrar perfectamente las capacidades de OCR en sus proyectos de Python. En caso de cualquier ambigüedad, no dude en contactarnos en nuestro foro de soporte gratuito.

Ver también