Mientras procesa archivos PDF, a menudo necesita extraer el contenido de las páginas como texto sin formato. Este texto sin formato se puede usar para varios propósitos, como análisis de texto, procesamiento de texto, etc. En este artículo, aprenderá cómo extraer texto de un PDF en Python. Con la ayuda de ejemplos de código, el artículo demostrará cómo realizar la extracción de texto en un PDF completo o en una sola página.
- Biblioteca de Python para extraer texto de PDF
- Extraer texto de PDF en Python
- Extraer texto de una página en PDF
- Extractor de texto PDF en línea
Biblioteca de Python para extraer texto de PDF
Para extraer texto de archivos PDF, usaremos Aspose.PDF for Python. Es una poderosa biblioteca de manipulación de PDF que le permite crear y procesar archivos PDF. Además, te permite convertir archivos PDF a otros formatos.
Puede instalar Aspose.PDF for Python usando el siguiente comando pip.
pip install aspose-pdf
Extraer texto de PDF en Python
Los siguientes son los pasos para extraer texto de un PDF en Python.
- Utilice la clase Document para cargar el archivo PDF.
- Cree una instancia de la clase TextDevice.
- Inicie un bucle para el número de páginas veces.
- En cada iteración, extraiga texto de una página utilizando el método TextDevice.process() y guarde el texto extraído en un archivo .txt.
El siguiente ejemplo de código muestra cómo extraer texto de PDF en Python.
import aspose.pdf as ap
outputFile = "page_{pageNo}.txt"
# Abrir documento PDF
document = ap.Document("input.pdf")
# Crear dispositivo de texto
textDevice = ap.devices.TextDevice()
for page in range(1, len(document.pages)+1):
# Exportar página a TXT
textDevice.process(document.pages[page], outputFile.format(pageNo=page))
Extraer texto de una página específica en PDF
También puede extraer texto de una página específica del PDF usando el número de página en la matriz Document.pages. El siguiente ejemplo de código muestra cómo extraer texto de una página específica en PDF.
import aspose.pdf as ap
# Abrir documento PDF
document = ap.Document("input.pdf")
# Crear dispositivo de texto
textDevice = ap.devices.TextDevice()
# Extraer texto de la primera página
textDevice.process(document.pages[1], "extracted_text.txt")
Extraer texto de PDF en línea
También puede usar nuestra herramienta de extracción de texto PDF en línea para extraer texto de archivos PDF. Es una herramienta gratuita que puede usar sin ninguna suscripción o registro.
Biblioteca gratuita de extracción de texto PDF
Obtenga su licencia temporal gratuita y extraiga texto de archivos PDF sin limitaciones.
Explore la biblioteca PDF de Python
Puede explorar más sobre la biblioteca PDF de Python usando la documentación. Además, puede publicar sus consultas en nuestro foro.
Conclusión
En este artículo, ha aprendido cómo extraer texto de PDF en Python. Los pasos y ejemplos de código han demostrado cómo extraer texto de un PDF completo o de una página específica. Puede instalar fácilmente la biblioteca y realizar la extracción de texto desde sus aplicaciones de Python.