OCR PDF Python

Los documentos PDF escaneados a menudo son un desafío para trabajar debido a la falta de texto que se pueda buscar o editar. Sin embargo, con el poder de la tecnología de reconocimiento óptico de caracteres (OCR), la extracción de texto de archivos PDF escaneados y su conversión a formatos editables o con capacidad de búsqueda se convierte en una realidad. En esta publicación de blog, aprenderá cómo realizar el reconocimiento de texto PDF con OCR en Python. También exploraremos cómo extraer texto de archivos PDF escaneados, convertirlos en PDF editables o con capacidad de búsqueda, y liberar el potencial de las capacidades de OCR de Python usando la biblioteca Aspose.OCR for Python a través de .NET.

Reconocer texto de PDF escaneado con OCR: instalación de la API de Python

El reconocimiento óptico de caracteres (OCR) es una tecnología que permite convertir imágenes o documentos escaneados en texto legible por máquina. Al analizar las formas y los patrones de los caracteres de una imagen, los algoritmos de OCR identifican y reconocen el texto, lo que permite extraer y procesar la información que contiene. Antes de comenzar, debe instalar Aspose.OCR for Python a través de .NET descargándolo desde la página Nuevos lanzamientos o configurarlo desde PyPi ejecutando el siguiente comando de instalación:

pip install aspose-ocr-python-net

Reconocer texto de PDF con OCR en Python

Puede reconocer o extraer texto de PDF con OCR en Python. Extraerá el texto de un documento PDF escaneado de manera eficiente, ya que los pasos a continuación describen el proceso simple para reconocer texto de PDF con OCR en Python:

  1. Crea una instancia de un objeto de la clase AsposeOcr.
  2. Cargue el archivo PDF escaneado.
  3. Reconocer texto con OCR e imprimir el resultado en la consola.

El siguiente código de muestra muestra cómo reconocer texto de PDF con OCR en Python:

import aspose.ocr as ocr

# Initialize an object of AsposeOcr class
api = ocr.AsposeOcr()

# Load the scanned PDF file
input = ocr.OcrInput(ocr.InputType.PDF)
input.add("source.pdf")

# Recognize text with OCR
result = api.recognize(input)

# Print the output text to the console
print(result[0].recognition_text)

Convierta un PDF escaneado en un PDF editable o con capacidad de búsqueda con OCR en Python

Los archivos PDF escaneados contienen imágenes en las que no puede buscar el texto, por lo que debe convertirlo en un documento PDF que permita realizar búsquedas para que el documento sea legible por máquina y procesarlo en consecuencia. Siga los pasos a continuación para convertirlo en un documento PDF editable o con capacidad de búsqueda en Python:

  1. Cree un objeto de la clase AsposeOcr.
  2. Inicialice la instancia de clase [RecognitionSettings][5] y configure las propiedades requeridas.
  3. Cargue el archivo PDF y configure el rango de páginas para el reconocimiento con OCR.
  4. Guarde el archivo PDF de búsqueda de salida.

El siguiente código de ejemplo muestra cómo convertir un PDF escaneado en un documento PDF que permite realizar búsquedas con OCR en Python:

import aspose.ocr as ocr

api = ocr.AsposeOcr()

# Initialize RecognitionSettings
settings = ocr.RecognitionSettings()
settings.auto_denoising = True
settings.auto_contrast = True

# Specify the PDF document as input
input = ocr.OcrInput(ocr.InputType.PDF)

# Access the scanned PDF and set the page number and total number of pages
input.add("source.pdf", 0, 1)

# Process the PDF file for text recognition with OCR
result = api.recognize(input , settings)

# Save the searchable output PDF file
api.save_multipage_document("searchable.pdf", ocr.SaveFormat.PDF, result)

Aquí cabe destacar que puede OCR cualquier rango de páginas en el documento PDF. Por ejemplo, reconocer texto de páginas específicas solo donde el índice de la página es de base cero y el último parámetro es el recuento del número de páginas que se procesarán con la API. Además, puede establecer diferentes configuraciones de Reconocimiento para el preprocesamiento del archivo de origen, como eliminar el ruido, configurar el contraste, verificar la inclinación de las páginas de entrada, etc. para un reconocimiento mejorado y preciso del texto con el OCR.

Obtenga una licencia de evaluación gratuita

Puede solicitar una licencia temporal gratuita para evaluar la API sin ninguna limitación de evaluación.

Resumiendo

Con el poder de la tecnología OCR y Python, extraer texto de archivos PDF escaneados y convertirlos en formatos editables o que permiten realizar búsquedas se ha vuelto muy accesible. Aquí hemos explorado el proceso de reconocimiento de texto PDF con OCR en Python. Discutimos el proceso de instalación y la extracción de texto de archivos PDF escaneados, la implementación de OCR y la conversión de archivos PDF escaneados a formatos de búsqueda o editables. Al aprovechar las capacidades de OCR y emplear técnicas avanzadas, puede desbloquear todo el potencial de los archivos PDF escaneados y hacerlos más accesibles y versátiles en sus proyectos. En caso de ambigüedades o consultas, comuníquese con nosotros a través del foro de soporte gratuito.

Ver también