Os arquivos do Excel continuam a ser um dos formatos mais populares para gerenciar dados estruturados. Em Python, o DataFrame do pandas é a estrutura preferida para organizar e analisar esses dados de forma eficiente. Uma vez convertido em um DataFrame, os dados do Excel podem ser combinados de maneira fluída com bancos de dados, APIs ou modelos de aprendizado de máquina para análises e insights mais profundos. Neste artigo, iremos explorar maneiras práticas de converter o Excel em DataFrames do pandas, com exemplos claros para ajudá-lo a começar.

What is a Pandas DataFrame?

Um DataFrame é uma estrutura de dados 2D fornecida pela biblioteca pandas. Ele se parece com uma planilha do Excel com linhas e colunas. Cada coluna pode conter diferentes tipos de dados, como strings, inteiros ou floats.

DataFrames são ideais para:

  • Importando e limpando dados.
  • Realizando operações matemáticas.
  • Filtrando, agrupando e agregando dados.
  • Exportando resultados para Excel, CSV ou bancos de dados.

Quando você converte arquivos do Excel em DataFrames, pode imediatamente aplicar operações poderosas do pandas para análise.

Biblioteca Python para Converter Excel em DataFrame do Pandas

Aspose.Cells for Python via .NET é frequentemente considerado a melhor biblioteca Python para Excel para desenvolvedores que precisam de mais do que o manuseio básico de planilhas. Ele permite que você crie, leia, edite e converta arquivos do Excel programaticamente sem instalar o Microsoft Excel.

Para conversões de DataFrame, esta biblioteca se destaca porque suporta totalmente recursos avançados do Excel, como fórmulas, células mescladas, gráficos, tabelas dinâmicas e formatação condicional. Ela funciona com vários formatos, incluindo XLS, XLSX, XLSB, ODS, CSV e JSON.

Quando você usa o Aspose.Cells para trazer dados do Excel para o pandas, você obtém uma conversão suave em DataFrames com alta fidelidade. Isso significa que a estrutura, a formatação e os valores do seu Excel permanecem precisos, enquanto o pandas oferece as ferramentas para analisar e transformar esses dados de forma eficiente.

Converter Excel para Pandas DataFrame

Você pode criar uma nova planilha, gerar dados programaticamente e converter o Excel para um DataFrame do pandas em Python. Isso lhe dá controle total sobre a estrutura do arquivo, enquanto o torna pronto para análise imediata no pandas.

Siga os passos abaixo para converter Excel em um DataFrame do Pandas:

  1. Crie uma instância da classe Workbook.
  2. Acesse a primeira planilha e suas células.
  3. Adicione valores às células da planilha.
  4. Extract rows and headers.
  5. Converta os dados extraídos em um DataFrame do pandas.

O seguinte exemplo de código Python demonstra como converter Excel em um DataFrame do pandas:

import pandas as pd
from aspose.cells import Workbook

# Passo 1: Crie uma nova pasta de trabalho do Excel usando Aspose.Cells
wb = Workbook()

# Passo 2: Acesse a primeira planilha
ws = wb.worksheets.get(0)

# Passo 3: Acesse a coleção de células da planilha
c = ws.cells

# Passo 4: Adicione dados de exemplo à planilha
c.get("A1").value, c.get("B1").value, c.get("C1").value = "Name", "Age", "City"
c.get("A2").value, c.get("B2").value, c.get("C2").value = "Alice", 25, "New York"
c.get("A3").value, c.get("B3").value, c.get("C3").value = "Bob", 30, "San Francisco"
c.get("A4").value, c.get("B4").value, c.get("C4").value = "Charlie", 35, "Los Angeles"

# Passo 5: Pegue o cabeçalho da primeira linha de dados
header_idx = c.min_data_row
columns = [cell.value for cell in c.rows[header_idx]]

# Passo 6: Colete as linhas restantes como dados
data = [
    [cell.value for cell in row]
   for idx, row in enumerate(c.rows)
    if row and idx != header_idx
]

# Passo 7: Criar DataFrame de uma só vez
df = pd.DataFrame(data, columns=columns)
print(df)

Output

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles

Converter um arquivo Excel existente para um DataFrame do Pandas

Se você já tem um arquivo Excel, pode carregá-lo e converter o Excel em um DataFrame pandas em Python diretamente. Isso permite que você preserve a estrutura original da planilha enquanto trabalha com os dados de forma mais eficiente no pandas.

Siga os passos abaixo para carregar e converter um arquivo Excel existente em um DataFrame do Pandas:

  1. Abra um arquivo Excel existente usando a classe Workbook.
  2. Selecionar uma planilha pelo nome ou índice.
  3. Leia todas as linhas e colunas.
  4. Extract headers if available.
  5. Converta o resultado em um DataFrame do pandas.

O seguinte código Python mostra como converter um arquivo Excel existente em um DataFrame do pandas:

import pandas as pd
from aspose.cells import Workbook

# Passo 1: Carregue o arquivo Excel do arquivo
workbook = Workbook("PandasTest.xlsx")

# Passo 2: Selecione a planilha (por índice ou por nome)
worksheet = workbook.worksheets.get("Sheet1")  # or workbook.worksheets[0]

# Passo 3: Obtenha a coleção de células da planilha
cells = worksheet.cells

# Passo 4: Calcule o número de colunas (diferença de índice baseado em 0)
col_count = cells.max_data_column - cells.min_data_column

# Passo 5: Crie uma lista para armazenar os dados da linha
output_data = []

# Passo 6: Encontre o índice da primeira linha que tem dados
first_data_row_index = cells.min_data_row

# Passo 7: Iterar por todas as linhas na planilha
for row in cells.rows:
    if row is None:
        continue  # Skip uninitialized rows

    # Coletar todos os valores das células para a linha atual
    row_data = [cell.value for cell in row]
    output_data.append(row_data)

# Passo 8: Preparar os cabeçalhos das colunas
columns = []
if True:  # Use header row
    row = cells.rows[first_data_row_index]
   for cell in row:
        columns.append(cell.value)
    # Remova a linha do cabeçalho dos dados
    output_data = output_data[1:]
else:
    # Se não houver cabeçalho, atribua nomes de coluna padrão
    columns = [f"Unnamed: {i}" for i in range(col_count + 1)]

# Passo 9: Converta os dados em um DataFrame do pandas
df = pd.DataFrame(output_data, columns=columns)

# Passo 10: Imprima o DataFrame
print(df)
Converter um arquivo Excel existente para um DataFrame do Pandas

Arquivo Excel de exemplo para conversão em um DataFrame do Pandas.

Output

   Product A  Product B Period
0         50        160     Q1
1        100         32     Q2
2        170         50     Q3
3        300         40     Q4

Converter Excel para Pandas via JSON

Exporte seu intervalo do Excel para JSON com JsonUtility.exportrangetojson, e então carregue-o no Pandas. Veja o guia passo a passo: Convert Excel to Pandas DataFrame via JSON.

Converter Excel para Pandas via CSV

Converta seu arquivo Excel para CSV e depois carregue-o no Pandas. Siga o guia passo a passo: Convert Excel to Pandas DataFrame via CSV.

Obtenha uma Licença Gratuita

Você pode experimentar todos os recursos do Aspose.Cells for Python via .NET sem limitações, aplicando uma licença temporária gratuita. Por favor, visite a license page e obtenha uma licença gratuita. Isso permite que você avalie toda a API, incluindo conversões avançadas de Excel para DataFrame.

Recursos Adicionais Gratuitos

Explore mais maneiras de trabalhar com arquivos Excel em Python por meio desses recursos, que o ajudarão a ir além das conversões básicas e aplicar o Aspose.Cells de forma eficaz em projetos reais.

Conclusão

Converter arquivos Excel em DataFrames do pandas torna-se simples e confiável com Aspose.Cells for Python via .NET. Se você está criando novas planilhas ou importando as existentes, a biblioteca garante transferência de dados de alta fidelidade e total suporte a formatos. Ao combinar a flexibilidade do pandas com o manuseio avançado de Excel do Aspose.Cells, você pode simplificar o processamento de dados e desbloquear análises poderosas em Python.

Se você tiver alguma dúvida, visite o nosso free support forum, e nossa equipe ficará feliz em ajudá-lo.

Ver Também