Python에서 Excel을 Pandas DataFrame으로 변환하기

엑셀 파일은 구조화된 데이터를 관리하는 가장 인기 있는 형식 중 하나입니다. Python에서 pandas DataFrame은 데이터를 효율적으로 조직하고 분석하는 데 적합한 구조입니다. 데이터가 DataFrame으로 변환되면 엑셀 데이터는 데이터베이스, API 또는 머신 러닝 모델과 원활하게 결합되어 더 깊은 분석과 통찰력을 제공합니다. 이 기사에서는 엑셀을 pandas DataFrame으로 변환하는 실용적인 방법을 명확한 예와 함께 탐구하여 시작하는 데 도움을 드리겠습니다.

What is a Pandas DataFrame?

데이터프레임은 pandas 라이브러리에서 제공하는 2D 데이터 구조입니다. 이는 행과 열이 있는 Excel 스프레드시트와 유사하게 생겼습니다. 각 열은 문자열, 정수 또는 부동소수점과 같은 서로 다른 데이터 유형을 포함할 수 있습니다.

DataFrames는 다음에 이상적입니다:

데이터 가져오기 및 정리.
수학 연산 수행.
데이터 필터링, 그룹화 및 집계.
결과를 Excel, CSV 또는 데이터베이스로 내보내기.

Excel 파일을 DataFrame으로 변환하면 즉시 강력한 pandas 연산을 분석에 적용할 수 있습니다.

엑셀을 판다스 데이터프레임으로 변환하는 파이썬 라이브러리

Aspose.Cells for Python via .NET는 기본 스프레드시트 처리 이상이 필요한 개발자에게 최고의 Python Excel 라이브러리로 자주 간주됩니다. 이 라이브러리를 사용하면 Microsoft Excel을 설치하지 않고도 Excel 파일을 프로그래밍 방식으로 생성, 읽기, 편집 및 변환할 수 있습니다.

DataFrame 변환을 위해 이 라이브러리는 수식, 병합된 셀, 차트, 피벗 테이블 및 조건부 서식과 같은 고급 Excel 기능을 완벽하게 지원하기 때문에 빛을 발합니다. XLS, XLSX, XLSB, ODS, CSV 및 JSON을 포함한 여러 형식에서 작동합니다.

Aspose.Cells를 사용하여 Excel 데이터를 pandas로 가져오면 고충실도의 DataFrame으로 부드럽게 변환됩니다. 이는 Excel 구조, 서식 및 값이 정확하게 유지되며, pandas가 해당 데이터를 효율적으로 분석하고 변환할 수 있는 도구를 제공함을 의미합니다.

Excel을 Pandas DataFrame으로 변환하기

새로운 스프레드시트를 생성하고, 프로그램적으로 데이터를 생성하며, Excel을 Python의 pandas DataFrame으로 변환할 수 있습니다. 이렇게 하면 파일의 구조를 완벽하게 제어할 수 있으며, pandas에서 즉시 분석할 수 있도록 준비됩니다.

아래 단계를 따라 Excel을 Pandas DataFrame으로 변환하세요:

Workbook 클래스의 인스턴스를 생성합니다.
첫 번째 워크시트와 그 셀에 접근하세요.
워크시트 셀에 값을 추가하세요.
Extract rows and headers.
추출된 데이터를 pandas DataFrame으로 변환합니다.

다음 Python 코드 예제는 Excel을 pandas DataFrame으로 변환하는 방법을 보여줍니다:

import pandas as pd
from aspose.cells import Workbook

# Step 1: Aspose.Cells를 사용하여 새 Excel 통합 문서를 만듭니다.
wb = Workbook()

# 2단계: 첫 번째 워크시트에 접근합니다.
ws = wb.worksheets.get(0)

# Step 3: 워크시트의 셀 컬렉션에 접근하기
c = ws.cells

# 4단계: 워크시트에 샘플 데이터 추가
c.get("A1").value, c.get("B1").value, c.get("C1").value = "Name", "Age", "City"
c.get("A2").value, c.get("B2").value, c.get("C2").value = "Alice", 25, "New York"
c.get("A3").value, c.get("B3").value, c.get("C3").value = "Bob", 30, "San Francisco"
c.get("A4").value, c.get("B4").value, c.get("C4").value = "Charlie", 35, "Los Angeles"

# Step 5: 첫 번째 데이터 행에서 헤더 가져오기
header_idx = c.min_data_row
columns = [cell.value for cell in c.rows[header_idx]]

# Step 6: 남은 행을 데이터로 수집합니다.
data = [
    [cell.value for cell in row]
   for idx, row in enumerate(c.rows)
    if row and idx != header_idx
]

# Step 7: 한 번에 DataFrame 생성하기
df = pd.DataFrame(data, columns=columns)
print(df)

Output

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles

기존 Excel 파일을 Pandas DataFrame으로 변환하기

이미 Excel 파일이 있는 경우, 이를 로드하고 Excel을 Python에서 pandas DataFrame으로 직접 변환할 수 있습니다. 이렇게 하면 데이터를 pandas에서 더 효율적으로 작업하면서 원래의 시트 구조를 유지할 수 있습니다.

다음 단계를 따라 기존 Excel 파일을 Pandas DataFrame으로 로드하고 변환하십시오:

기존 Excel 파일을 Workbook 클래스를 사용하여 엽니다.
이름이나 인덱스로 워크시트를 선택하세요.
모든 행과 열을 읽으십시오.
Extract headers if available.
결과를 pandas DataFrame으로 변환하세요.

다음 Python 코드는 기존의 Excel 파일을 pandas DataFrame으로 변환하는 방법을 보여줍니다:

import pandas as pd
from aspose.cells import Workbook

# 1단계: 파일에서 Excel 통합 문서를 로드합니다.
workbook = Workbook("PandasTest.xlsx")

# 2단계: 워크시트를 선택합니다 (인덱스 또는 이름으로)
worksheet = workbook.worksheets.get("Sheet1")  # or workbook.worksheets[0]

# 3단계: 워크시트에서 셀 컬렉션을 가져옵니다.
cells = worksheet.cells

# Step 4: 열 수 계산(0 기반 인덱스 차이)
col_count = cells.max_data_column - cells.min_data_column

# Step 5: 행 데이터를 저장할 목록 만들기
output_data = []

# Step 6: 데이터가 있는 첫 번째 행의 인덱스를 찾습니다.
first_data_row_index = cells.min_data_row

# 단계 7: 시트의 모든 행을 반복합니다.
for row in cells.rows:
    if row is None:
        continue  # Skip uninitialized rows

    # 현재 행의 모든 셀 값을 수집하십시오.
    row_data = [cell.value for cell in row]
    output_data.append(row_data)

# 8단계: 열 헤더 준비
columns = []
if True:  # Use header row
    row = cells.rows[first_data_row_index]
   for cell in row:
        columns.append(cell.value)
    # 데이터의 헤더 행을 제거하세요.
    output_data = output_data[1:]
else:
    # 헤더가 없으면 기본 열 이름을 할당합니다.
    columns = [f"Unnamed: {i}" for i in range(col_count + 1)]

# Step 9: 데이터를 pandas DataFrame으로 변환합니다.
df = pd.DataFrame(output_data, columns=columns)

# Step 10: DataFrame 출력
print(df)

기존 Excel 파일을 Pandas DataFrame으로 변환하기 — 샘플 Excel 파일을 Pandas DataFrame으로 변환하는 데 사용합니다.

Output

   Product A  Product B Period
0         50        160     Q1
1        100         32     Q2
2        170         50     Q3
3        300         40     Q4

Excel을 JSON을 통해 Pandas로 변환하기
Excel 범위를 JsonUtility.exportrangetojson을 사용하여 JSON으로 내보낸 후, 이를 Pandas에 로드합니다. 단계별 가이드를 참조하세요: Convert Excel to Pandas DataFrame via JSON.

엑셀을 CSV를 통해 판다스로 변환하기
Excel 파일을 CSV로 변환한 다음 Pandas에 로드하십시오. 단계별 가이드를 따르십시오: Convert Excel to Pandas DataFrame via CSV.

무료 라이센스 받기

Aspose.Cells for Python via .NET의 모든 기능을 제한 없이 사용하려면 무료 임시 라이센스를 적용하세요. 라이센스 페이지를 방문하여 무료 라이센스를 받으세요. 이렇게 하면 고급 Excel-데이터프레임 변환을 포함한 전체 API를 평가할 수 있습니다.

추가 무료 리소스

Excel 파일을 Python에서 작업하는 더 많은 방법을 다음 리소스를 통해 탐색하십시오. 이를 통해 기본 변환을 넘어 Aspose.Cells를 실제 프로젝트에 효과적으로 적용하는 데 도움이 될 것입니다.

결론

Excel 파일을 Aspose.Cells for Python via .NET를 사용하여 pandas DataFrame으로 변환하는 것은 간단하고 신뢰할 수 있습니다. 새로운 스프레드시트를 작성하든 기존 스프레드시트를 가져오든, 이 라이브러리는 고충실도 데이터 전송과 전체 형식 지원을 보장합니다. pandas의 유연성과 Aspose.Cells의 고급 Excel 처리 기능을 결합함으로써 데이터 처리를 단순화하고 Python에서 강력한 분석을 활용할 수 있습니다.

질문이 있으시면, 저희 free support forum을 방문해 주시기 바랍니다. 저희 팀은 기꺼이 도와드리겠습니다.

What is a Pandas DataFrame?#

엑셀을 판다스 데이터프레임으로 변환하는 파이썬 라이브러리#

Excel을 Pandas DataFrame으로 변환하기#

기존 Excel 파일을 Pandas DataFrame으로 변환하기#

무료 라이센스 받기#

추가 무료 리소스#

결론#

See Also#