Extrair texto de PDF em Python

Ao processar arquivos PDF, geralmente é necessário extrair o conteúdo das páginas como texto simples. Esse texto simples pode ainda ser usado para diversos fins, como análise de texto, processamento de texto etc. Neste artigo, você aprenderá como extrair texto de um PDF em Python. Com a ajuda de amostras de código, o artigo demonstrará como realizar a extração de texto em um PDF inteiro ou em uma única página.

Biblioteca Python para extrair texto de PDF

Para extrair texto de arquivos PDF, usaremos Aspose.PDF for Python. É uma poderosa biblioteca de manipulação de PDF que permite criar e processar arquivos PDF. Além disso, permite converter arquivos PDF para outros formatos.

Você pode instalar o Aspose.PDF para Python usando o seguinte comando pip.

pip install aspose-pdf

Extrair texto de PDF em Python

A seguir estão as etapas para extrair texto de um PDF em Python.

  • Use a classe Document para carregar o arquivo PDF.
  • Crie uma instância da classe TextDevice.
  • Inicie um loop para o número de páginas vezes.
  • Em cada iteração, extraia o texto de uma página usando o método TextDevice.process() e salve o texto extraído em um arquivo .txt.

O exemplo de código a seguir mostra como extrair texto de PDF em Python.

import aspose.pdf as ap

outputFile =  "page_{pageNo}.txt"

# Abrir documento PDF
document = ap.Document("input.pdf")

# Criar dispositivo de texto
textDevice = ap.devices.TextDevice()

for page in range(1, len(document.pages)+1):
    # Exportar página para TXT
    textDevice.process(document.pages[page], outputFile.format(pageNo=page))

Extrair texto de uma página específica em PDF

Você também pode extrair texto de uma página específica do PDF usando o número da página na matriz Document.pages. O exemplo de código a seguir mostra como extrair texto de uma página específica em PDF.

import aspose.pdf as ap

# Abrir documento PDF
document = ap.Document("input.pdf")

# Criar dispositivo de texto
textDevice = ap.devices.TextDevice()

# Extrair texto da primeira página
textDevice.process(document.pages[1], "extracted_text.txt")

Extrair texto de PDF online

Você também pode usar nossa ferramenta online de extração de texto PDF para extrair texto de arquivos PDF. É uma ferramenta gratuita que você pode usar sem qualquer assinatura ou registro.

Biblioteca gratuita de extração de texto em PDF

Obtenha sua licença temporária gratuita e extraia texto de arquivos PDF sem quaisquer limitações.

Explorar biblioteca de PDF do Python

Você pode explorar mais sobre a biblioteca Python PDF usando a documentação. Além disso, você pode postar suas dúvidas em nosso fórum.

Conclusão

Neste artigo, você aprendeu como extrair texto de PDF em Python. As etapas e os exemplos de código demonstraram como extrair texto de um PDF inteiro ou de uma página específica. Você pode instalar facilmente a biblioteca e executar a extração de texto de seus aplicativos Python.

Veja também