Extraer texto de PDF en Python

Como programador, es posible que deba procesar un montón de archivos PDF y extraer texto de ellos. La extracción de texto de PDF podría ser necesaria para diversos fines, como el análisis de texto. En este artículo, vamos a demostrar lo fácil que es extraer texto de un archivo PDF en Python. Además, aprenderá cómo extraer texto y guardarlo en un archivo TXT.

Biblioteca de Python para extraer texto de PDF - Descarga gratuita

Aspose.Words for Python es una biblioteca increíble que le permite crear y procesar documentos de texto sin problemas. Puede manipular los documentos de formatos populares como DOC, DOCX y PDF. Vamos a utilizar esta biblioteca para realizar la extracción de texto en nuestros archivos PDF. Puede instalar la biblioteca desde PyPI usando el siguiente comando pip.

> pip install aspose-words

Cómo extraer texto de PDF en Python

Aspose.Words for Python ha hecho que la extracción de texto PDF sea extremadamente fácil al ocultar las operaciones complejas del usuario. Solo necesita cargar el archivo PDF y guardar el texto extraído. Los siguientes pasos demuestran cómo extraer texto de un PDF usando Aspose.Words for Python.

  • Cargue el archivo PDF desde la ubicación deseada.
  • Extraiga y guarde el texto en un archivo .txt.

Y eso es todo. A continuación, puede procesar el archivo .txt y manipular el texto sin formato extraído del PDF.

Ahora echemos un vistazo a cómo extraer texto de un PDF mediante programación en Python.

Extracción de texto de PDF en Python

Los siguientes son los pasos junto con las clases y métodos para la extracción de texto PDF en Python.

  • Cargue el archivo PDF utilizando la clase Document.
  • Extraiga texto de PDF en un archivo .txt usando el método Document.save(fileName).

El siguiente ejemplo de código muestra la extracción de texto de un archivo PDF en Python.

# Importar módulo Aspose.Words for Python
import aspose.words as aw

# Cargar archivo PDF
pdf = aw.Document("file.pdf")

# Extrae y guarda texto en un archivo TXT
pdf.save("extracted-text.txt")

La siguiente captura de pantalla muestra el archivo PDF de entrada que hemos utilizado para la extracción de texto.

PDF para extraer texto en Python

La siguiente captura de pantalla muestra el texto extraído en un archivo TXT.

Texto extraído de PDF a TXT

Extractor de texto PDF para Python: obtenga una licencia gratuita

Puede obtener una licencia temporal gratuita para extraer texto de PDF sin limitaciones de evaluación.

Conclusión

En este artículo, ha aprendido a extraer texto de archivos PDF en Python. Ha visto lo fácil y rápido que puede extraer texto de un PDF y guardarlo en un archivo TXT mediante programación. Ahora, puede implementar la extracción de texto para un lote de archivos PDF en sus aplicaciones de Python.

Explore el extractor de texto PDF de Aspose para Python

Puede explorar otras características de Aspose.Words for Python utilizando la documentación. En caso de que tenga alguna pregunta, no dude en hacérnosla saber a través de nuestro foro.

Ver también