ไฟล์ Excel ยังคงเป็นหนึ่งในรูปแบบที่ได้รับความนิยมมากที่สุดสำหรับการจัดการข้อมูลที่มีโครงสร้าง ใน Python, pandas DataFrame เป็นโครงสร้างที่ใช้สำหรับการจัดระเบียบและวิเคราะห์ข้อมูลนั้นอย่างมีประสิทธิภาพ เมื่แปลงเป็น DataFrame แล้ว ข้อมูลจาก Excel สามารถรวมเข้าได้อย่างไร้ที่ติด้วยฐานข้อมูล, APIs, หรือโมเดลการเรียนรู้ของเครื่องสำหรับการวิเคราะห์และข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้น ในบทความนี้ เราจะสำรวจวิธีการปฏิบัติที่เป็นประโยชน์ในการแปลง Excel เป็น pandas DataFrames พร้อมตัวอย่างที่ชัดเจนเพื่อช่วยให้คุณเริ่มต้นได้

What is a Pandas DataFrame?

DataFrame คือโครงสร้างข้อมูลแบบ 2 มิติที่จัดทำโดยไลบรารี pandas มันมีลักษณะคล้ายกับสเปรดชีต Excel ที่มีแถวและคอลัมน์แต่ละคอลัมน์สามารถเก็บประเภทข้อมูลที่แตกต่างกันเช่น สตริง, จำนวนเต็ม หรือ จำนวนทศนิยม

DataFrames เหมาะสำหรับ:

  • การนำเข้าข้อมูลและการทำความสะอาดข้อมูล。
  • การทำการคำนวณทางคณิตศาสตร์。
  • การกรอง การจัดกลุ่ม และการรวมข้อมูล。
  • การส่งออกผลลัพธ์ไปยัง Excel, CSV หรือฐานข้อมูล

เมื่อคุณแปลงไฟล์ Excel เป็น DataFrames คุณสามารถใช้การดำเนินการ pandas ที่มีประสิทธิภาพสำหรับการวิเคราะห์ได้ทันที

ไลบรารี Python เพื่อแปลง Excel เป็น Pandas DataFrame

Aspose.Cells for Python via .NET มักถูกมองว่าเป็น ไลบรารี Excel สำหรับ Python ที่ดีที่สุด สำหรับนักพัฒนาที่ต้องการฟังก์ชันการจัดการสเปรดชีตที่มากกว่าขั้นพื้นฐาน มันช่วยให้คุณสร้าง อ่าน แก้ไข และแปลงไฟล์ Excel โดยไม่ต้องติดตั้ง Microsoft Excel

สำหรับการแปลง DataFrame ไลบรารีนี้โดดเด่นเพราะรองรับฟีเจอร์ Excel ขั้นสูงอย่างเต็มที่ เช่น สูตร เซลล์ที่ผสม โค้ด แผนภูมิ ตาราง Pivot และการจัดรูปแบบตามเงื่อนไข มันทำงานกับหลายรูปแบบรวมถึง XLS, XLSX, XLSB, ODS, CSV, และ JSON.

เมื่อคุณใช้ Aspose.Cells เพื่อนำข้อมูล Excel เข้าสู่ pandas คุณจะได้รับการแปลงที่ราบรื่นเป็น DataFrames โดยมีความเที่ยงตรงสูง นี่หมายความว่าโครงสร้าง การจัดรูปแบบ และค่าของ Excel ของคุณยังคงถูกต้อง ในขณะที่ pandas ให้เครื่องมือในการวิเคราะห์และแปลงข้อมูลนั้นได้อย่างมีประสิทธิภาพ

แปลง Excel เป็น Pandas DataFrame

คุณสามารถสร้างสเปรดชีตใหม่ สร้างข้อมูลโดยโปรแกรม และแปลง Excel เป็น pandas DataFrame ใน Python ได้ ซึ่งจะให้คุณควบคุมโครงสร้างของไฟล์ได้อย่างเต็มที่ ขณะที่ทำให้มันพร้อมสำหรับการวิเคราะห์ทันทีใน pandas

ทำตามขั้นตอนด้านล่างเพื่อแปลง Excel เป็น Pandas DataFrame:

  1. สร้างตัวอย่างของคลาส Workbook
  2. เข้าถึงแผ่นงานแรกและเซลล์ของมัน
  3. เพิ่มค่าไปยังเซลล์ในแผ่นงาน.
  4. Extract rows and headers.
  5. แปลงข้อมูลที่ถูกดึงออกมาเป็น DataFrame ของ pandas。

ตัวอย่างโค้ด Python ต่อไปนี้แสดงวิธีการแปลง Excel เป็น pandas DataFrame:

import pandas as pd
from aspose.cells import Workbook

# ขั้นตอนที่ 1: สร้างสมุดงาน Excel ใหม่โดยใช้ Aspose.Cells
wb = Workbook()

# ขั้นตอนที่ 2: เข้าถึงแผ่นงานแรก
ws = wb.worksheets.get(0)

# ขั้นตอนที่ 3: เข้าถึงคอลเลกชันเซลล์ของเวิร์กชีต
c = ws.cells

# ขั้นตอนที่ 4: เพิ่มข้อมูลตัวอย่างลงในแผ่นงาน
c.get("A1").value, c.get("B1").value, c.get("C1").value = "Name", "Age", "City"
c.get("A2").value, c.get("B2").value, c.get("C2").value = "Alice", 25, "New York"
c.get("A3").value, c.get("B3").value, c.get("C3").value = "Bob", 30, "San Francisco"
c.get("A4").value, c.get("B4").value, c.get("C4").value = "Charlie", 35, "Los Angeles"

# ขั้นตอนที่ 5: ดึงหัวเรื่องจากแถวข้อมูลแรก
header_idx = c.min_data_row
columns = [cell.value for cell in c.rows[header_idx]]

# ขั้นตอนที่ 6: รวบรวมแถวที่เหลือเป็นข้อมูล
data = [
    [cell.value for cell in row]
   for idx, row in enumerate(c.rows)
    if row and idx != header_idx
]

# ขั้นตอนที่ 7: สร้าง DataFrame ในครั้งเดียว
df = pd.DataFrame(data, columns=columns)
print(df)

Output

      Name  Age           City
0    Alice   25       New York
1      Bob   30  San Francisco
2  Charlie   35    Los Angeles

แปลงไฟล์ Excel ที่มีอยู่เป็น Pandas DataFrame

ถ้าคุณมีไฟล์ Excel อยู่แล้ว คุณสามารถโหลดมันและแปลง Excel เป็น pandas DataFrame ใน Python ได้โดยตรง นี่ช่วยให้คุณรักษาโครงสร้างแผ่นงานเดิมในขณะที่ทำงานกับข้อมูลได้อย่างมีประสิทธิภาพมากขึ้นใน pandas

ตามขั้นตอนด้านล่างเพื่อโหลดและแปลงไฟล์ Excel ที่มีอยู่ให้เป็น Pandas DataFrame:

  1. เปิดไฟล์ Excel ที่มีอยู่แล้วโดยใช้คลาส Workbook
  2. เลือกแผ่นงานตามชื่อหรือตามดัชนี.
  3. อ่านทุกแถวและทุกคอลัมน์
  4. Extract headers if available.
  5. แปลงผลลัพธ์เป็น pandas DataFrame。

โค้ด Python ต่อไปนี้แสดงวิธีการแปลงไฟล์ Excel ที่มีอยู่ให้เป็น pandas DataFrame:

import pandas as pd
from aspose.cells import Workbook

# ขั้นตอนที่ 1: โหลดสมุดงาน Excel จากไฟล์
workbook = Workbook("PandasTest.xlsx")

# ขั้นตอนที่ 2: เลือกแผ่นงาน (โดยดัชนีหรือโดยชื่อ)
worksheet = workbook.worksheets.get("Sheet1")  # or workbook.worksheets[0]

# ขั้นตอนที่ 3: ดึงข้อมูลชุดเซลล์จากแผ่นงาน
cells = worksheet.cells

# ขั้นตอนที่ 4: คำนวณหมายเลขคอลัมน์ (ความแตกต่างของดัชนีที่เริ่มจาก 0)
col_count = cells.max_data_column - cells.min_data_column

# ขั้นตอนที่ 5: สร้างรายการเพื่อเก็บข้อมูลแถว
output_data = []

# ขั้นตอนที่ 6: หาอินเดกซ์ของแถวแรกที่มีข้อมูล
first_data_row_index = cells.min_data_row

# ขั้นตอนที่ 7: ทำซ้ำผ่านทุกแถวในแผ่นงาน
for row in cells.rows:
    if row is None:
        continue  # Skip uninitialized rows

    # รวบรวมค่าเซลล์ทั้งหมดในแถวปัจจุบัน
    row_data = [cell.value for cell in row]
    output_data.append(row_data)

# ขั้นตอนที่ 8: เตรียมส่วนหัวของคอลัมน์
columns = []
if True:  # Use header row
    row = cells.rows[first_data_row_index]
   for cell in row:
        columns.append(cell.value)
    # ลบแถวหัวข้อออกจากข้อมูล
    output_data = output_data[1:]
else:
    # ถ้าไม่มีหัวเรื่อง ให้กำหนดชื่อคอลัมน์เริ่มต้น
    columns = [f"Unnamed: {i}" for i in range(col_count + 1)]

# ขั้นตอนที่ 9: แปลงข้อมูลเป็น pandas DataFrame
df = pd.DataFrame(output_data, columns=columns)

# ขั้นตอนที่ 10: พิมพ์ DataFrame
print(df)
แปลงไฟล์ Excel ที่มีอยู่เป็น DataFrame ของ Pandas

ไฟล์ Excel ตัวอย่างสำหรับแปลงเป็น Pandas DataFrame.

Output

   Product A  Product B Period
0         50        160     Q1
1        100         32     Q2
2        170         50     Q3
3        300         40     Q4

แปลง Excel เป็น Pandas ผ่าน JSON

ส่งออกช่วง Excel ของคุณเป็น JSON ด้วย JsonUtility.exportrangetojson จากนั้นโหลดเข้าไปใน Pandas ดูคำแนะนำทีละขั้นตอน: Convert Excel to Pandas DataFrame via JSON.

แปลง Excel เป็น Pandas ผ่าน CSV

แปลงไฟล์ Excel ของคุณเป็น CSV แล้วโหลดเข้าไปใน Pandas ตามคู่มือทีละขั้นตอน: Convert Excel to Pandas DataFrame via CSV.

รับใบอนุญาตฟรี

คุณสามารถลองใช้ฟีเจอร์ทั้งหมดของ Aspose.Cells for Python ผ่าน .NET ได้โดยไม่ยั้งคิดโดยการใช้ใบอนุญาตชั่วคราวฟรี กรุณาเยี่ยมชมหน้า license page และขอใบอนุญาตฟรี สิ่งนี้ทำให้คุณสามารถประเมิน API เต็มรูปแบบรวมถึงการแปลงจาก Excel เป็น DataFrame ที่ทันสมัย

แหล่งข้อมูลฟรีเพิ่มเติม

ค้นพบวิธีเพิ่มเติมในการทำงานกับไฟล์ Excel ใน Python ผ่านทรัพยากรเหล่านี้ ซึ่งจะช่วยให้คุณก้าวข้ามการแปลงพื้นฐานและนำ Aspose.Cells ไปใช้ในโปรเจ็กต์จริงได้อย่างมีประสิทธิภาพ

ข้อสรุป

การแปลงไฟล์ Excel เป็น pandas DataFrames เป็นเรื่องง่ายและเชื่อถือได้ด้วย Aspose.Cells for Python ผ่าน .NET ไม่ว่าคุณจะกำลังสร้างแผ่นงานใหม่หรือการนำเข้าชิ้นงานที่มีอยู่ ไลบรารีนี้จะรับประกันการถ่ายโอนข้อมูลที่มีความแม่นยำสูงและการสนับสนุนรูปแบบอย่างเต็มที่ โดยการรวมความยืดหยุ่นของ pandas เข้ากับการจัดการ Excel ขั้นสูงของ Aspose.Cells คุณสามารถทำให้การประมวลผลข้อมูลง่ายขึ้นและปลดล็อกการวิเคราะห์ที่ทรงพลังใน Python

หากคุณมีคำถามใด ๆ โปรดเยี่ยมชม free support forum ของเรา และทีมงานของเรายินดีที่จะช่วยเหลือคุณ

ดูเพิ่มเติม