Extrair texto de PDF em Python

Como programador, você pode precisar processar vários arquivos PDF e extrair texto deles. A extração de texto de PDF pode ser necessária para vários fins, como análise de texto. Neste artigo, vamos demonstrar como é fácil extrair texto de um arquivo PDF em Python. Além disso, você saberá como extrair texto e salvar em um arquivo TXT.

Biblioteca Python para extrair texto de PDF - Download grátis

Aspose.Words for Python é uma biblioteca incrível que permite criar e processar documentos de texto sem problemas. Você pode manipular os documentos de formatos populares como DOC, DOCX e PDF. Vamos usar esta biblioteca para realizar a extração de texto em nossos arquivos PDF. Você pode instalar a biblioteca de PyPI usando o seguinte comando pip.

> pip install aspose-words

Como extrair texto de PDF em Python

O Aspose.Words for Python tornou a extração de texto PDF extremamente fácil, ocultando as operações complexas do usuário. Você só precisa carregar o arquivo PDF e salvar o texto extraído. As etapas a seguir demonstram como extrair texto de um PDF usando Aspose.Words para Python.

  • Carregue o arquivo PDF do local desejado.
  • Extraia e salve o texto em um arquivo .txt.

E é isso. Você pode então processar o arquivo .txt e manipular o texto simples extraído do PDF.

Vamos agora dar uma olhada em como extrair texto de um PDF programaticamente em Python.

Extração de texto de PDF em Python

A seguir estão as etapas junto com classes e métodos para extração de texto PDF em Python.

  • Carregue o arquivo PDF usando a classe Document.
  • Extraia o texto do PDF em um arquivo .txt usando o método Document.save(fileName).

O exemplo de código a seguir mostra a extração de texto de um arquivo PDF em Python.

# Importar o módulo Aspose.Words para Python
import aspose.words as aw

# Carregar arquivo PDF
pdf = aw.Document("file.pdf")

# Extraia e salve texto em um arquivo TXT
pdf.save("extracted-text.txt")

A captura de tela a seguir mostra o arquivo PDF de entrada que usamos para extração de texto.

PDF para extrair texto em Python

A captura de tela a seguir mostra o texto extraído em um arquivo TXT.

Texto extraído de PDF para TXT

Extrator de Texto PDF para Python - Obtenha uma Licença Gratuita

Você pode obter uma licença temporária gratuita para extrair texto de PDF sem limitações de avaliação.

Conclusão

Neste artigo, você aprendeu como extrair texto de arquivos PDF em Python. Você viu como é fácil e rápido extrair texto de um PDF e salvá-lo em um arquivo TXT programaticamente. Agora, você pode implementar a extração de texto para um lote de arquivos PDF em seus aplicativos Python.

Explore o PDF Text Extractor do Aspose para Python

Você pode explorar outros recursos do Aspose.Words for Python usando a documentação. Caso você tenha alguma dúvida, sinta-se à vontade para nos informar através do nosso fórum.

Veja também