Extraer texto de PDF en Python

Mientras procesa archivos PDF, a menudo necesita extraer el contenido de las páginas como texto sin formato. Este texto sin formato se puede usar para varios propósitos, como análisis de texto, procesamiento de texto, etc. En este artículo, aprenderá cómo extraer texto de un PDF en Python. Con la ayuda de ejemplos de código, el artículo demostrará cómo realizar la extracción de texto en un PDF completo o en una sola página.

Biblioteca de Python para extraer texto de PDF

Para extraer texto de archivos PDF, usaremos Aspose.PDF for Python. Es una poderosa biblioteca de manipulación de PDF que le permite crear y procesar archivos PDF. Además, te permite convertir archivos PDF a otros formatos.

Puede instalar Aspose.PDF for Python usando el siguiente comando pip.

pip install aspose-pdf

Extraer texto de PDF en Python

Los siguientes son los pasos para extraer texto de un PDF en Python.

  • Utilice la clase Document para cargar el archivo PDF.
  • Cree una instancia de la clase TextDevice.
  • Inicie un bucle para el número de páginas veces.
  • En cada iteración, extraiga texto de una página utilizando el método TextDevice.process() y guarde el texto extraído en un archivo .txt.

El siguiente ejemplo de código muestra cómo extraer texto de PDF en Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Abrir documento PDF
document = ap.Document("input.pdf")

# Crear dispositivo de texto
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Exportar página a TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extraer texto de una página específica en PDF

También puede extraer texto de una página específica del PDF usando el número de página en la matriz Document.pages. El siguiente ejemplo de código muestra cómo extraer texto de una página específica en PDF.

import aspose.pdf as ap

# Abrir documento PDF
document = ap.Document("input.pdf")

# Crear dispositivo de texto
textDevice = ap.devices.TextDevice()

# Extraer texto de la primera página
textDevice.process(document.pages[1], "extracted_text.txt")

Extraer texto de PDF en línea

También puede usar nuestra herramienta de extracción de texto PDF en línea para extraer texto de archivos PDF. Es una herramienta gratuita que puede usar sin ninguna suscripción o registro.

Biblioteca gratuita de extracción de texto PDF

Obtenga su licencia temporal gratuita y extraiga texto de archivos PDF sin limitaciones.

Explore la biblioteca PDF de Python

Puede explorar más sobre la biblioteca PDF de Python usando la documentación. Además, puede publicar sus consultas en nuestro foro.

Conclusión

En este artículo, ha aprendido cómo extraer texto de PDF en Python. Los pasos y ejemplos de código han demostrado cómo extraer texto de un PDF completo o de una página específica. Puede instalar fácilmente la biblioteca y realizar la extracción de texto desde sus aplicaciones de Python.

Ver también