Làm việc với các tệp CSV là một nhiệm vụ hàng ngày của các nhà phân tích dữ liệu và lập trình viên. Nếu bạn cần chuyển đổi CSV thành Pandas DataFrame, Pandas cung cấp một hàm readcsv() trực tiếp, nhưng đôi khi bạn cần sức mạnh hơn. Đây là lúc Aspose.Cells for Python xuất hiện. Với Aspose.Cells, bạn có thể nhập CSV vào Pandas trong khi đảm bảo kiểm soát tốt hơn, độ tin cậy và khả năng tương thích với các định dạng Excel. Trong bài viết blog này, bạn sẽ học theo từng bước cách chuyển đổi CSV thành Pandas, xử lý các tệp Excel và xuất chúng thành Pandas DataFrames.
Cuối cùng, bạn sẽ biết nhiều cách để chuyển từ CSV sang DataFrame Pandas một cách nhanh chóng và hiệu quả.
Thư viện Python để chuyển đổi CSV thành DataFrame của Pandas
Aspose.Cells for Python via .NET là một thư viện mạnh mẽ để làm việc với bảng tính. Nó cho phép bạn tạo, đọc, chỉnh sửa và chuyển đổi các tệp Excel và CSV một cách lập trình mà không cần Microsoft Excel. Khi xử lý chuyển đổi từ CSV sang Pandas, Aspose.Cells đóng vai trò là cầu nối đáng tin cậy giữa các tệp CSV thô và các DataFrame Pandas có cấu trúc.
Điều kiện tiên quyết
Trước khi chạy các ví dụ, hãy đảm bảo bạn đã cài đặt những điều sau:
- Aspose.Cells for Python qua .NET: Tải xuống từ các bản phát hành hoặc cài đặt bằng pip:
pip install aspose-cells-python
- Pandas – cài đặt bằng pip:
pip install pandas
Hai thư viện này sẽ cho phép bạn tải lên và xử lý các tệp CSV/Excel với Aspose.Cells và sau đó chuyển đổi chúng thành các DataFrame Pandas để phân tích.
Aspose.Cells for Python qua .NET → để đọc và xử lý các tệp CSV/Excel.
Pandas → để xây dựng và phân tích các DataFrame.
Chuyển đổi CSV thành DataFrame của Pandas: Các bước từng bước
Trong phần này, bạn sẽ đi qua toàn bộ quá trình chuyển đổi một tệp CSV thành một Pandas DataFrame bằng cách sử dụng Aspose.Cells for Python. Mỗi bước được chia thành các nhiệm vụ nhỏ. Điều này giúp bạn dễ dàng theo dõi. Bạn sẽ bắt đầu bằng cách tải tệp CSV vào một workbook. Trích xuất nội dung của nó và xây dựng một Pandas DataFrame.
Bước 1: Tải CSV vào Workbook
Hãy bắt đầu bằng cách tải một tệp CSV vào một workbook Aspose.Cells.
- Nhập lớp Workbook.
- Tải tệp CSV.
- Truy cập vào worksheet đầu tiên.
import aspose.cells as ac
# Load CSV file into Workbook
csv_wb = ac.Workbook("data.csv")
# Access the first worksheet (CSV loads as sheet)
csv_ws = csv_wb.worksheets[0]
Bước 2: Trích xuất dữ liệu từ Bảng tính
Khi tệp được tải lên, hãy trích xuất nội dung của nó theo từng hàng. Điều này chuẩn bị dữ liệu để chuyển đổi thành một DataFrame.
- Lấy bộ sưu tập ô.
- Lặp qua các hàng và cột.
- Lưu trữ giá trị trong một danh sách của các danh sách.
cells = csv_ws.cells
# Extract CSV data into Python list
data = []
for row_idx in range(cells.min_data_row, cells.max_data_row + 1):
row_data = []
for col_idx in range(cells.min_data_column, cells.max_data_column + 1):
row_data.append(cells.get(row_idx, col_idx).value)
data.append(row_data)
Bước 3: Chuyển đổi CSV thành Pandas DataFrame
Bây giờ, chuyển đổi danh sách được trích xuất thành một Pandas DataFrame. Bước này cho thấy cách chuyển từ CSV sang Pandas DataFrame với tiêu đề phù hợp.
- Nhập Pandas.
- Sử dụng hàng đầu tiên làm tiêu đề.
- Tạo DataFrame từ các hàng còn lại.
import pandas as pd
# Convert to Pandas DataFrame
headers = data[0] # First row as header
rows = data[1:] # Remaining rows as data
df = pd.DataFrame(rows, columns=headers)
print(df.head())
Bạn đã chuyển đổi thành công CSV sang DataFrame Pandas bằng cách sử dụng Aspose.Cells.
Với những bước này, bạn đã thấy cách chuyển đổi một tệp CSV thành một DataFrame Pandas bằng cách sử dụng Aspose.Cells. Tiếp theo, hãy khám phá cách xử lý các tệp Excel bằng cách lưu chúng dưới dạng CSV và sau đó tải chúng vào Pandas.
Chuyển đổi Excel thành Pandas DataFrame qua tệp CSV
Đôi khi dữ liệu của bạn ở định dạng Excel (.xlsx hoặc .xls) và bạn muốn chuyển đổi Excel thành Pandas DataFrame thông qua CSV. Aspose.Cells làm cho điều này trở nên dễ dàng.
Làm theo các bước dưới đây để chuyển đổi Excel thành Pandas DataFrames thông qua tệp CSV:
- Tải tệp Excel vào đối tượng lớp
Workbook. - Lưu tệp Excel dưới dạng CSV.
- Tải lại tệp CSV mới được tạo vào một workbook.
- Truy cập vào bảng tính đầu tiên thông qua chỉ số của nó.
- Trích xuất tất cả giá trị ô vào một danh sách danh sách Python.
- Sử dụng hàng đầu tiên làm tiêu đề cột và phần còn lại làm hàng dữ liệu.
- Tạo một DataFrame Pandas từ dữ liệu đã được trích xuất.
- Print the results.
Ví dụ mã dưới đây cho thấy cách chuyển đổi Excel thành DataFrame pandas trong Python:
import aspose.cells as ac
import pandas as pd
# Tải một tệp Excel
excel_wb = ac.Workbook("PandasTest.xlsx")
# Lưu Excel dưới dạng CSV
excel_wb.save("converted.csv", ac.SaveFormat.CSV)
# Tải lại CSV bằng Aspose.Cells
csv_wb = ac.Workbook("converted.csv")
csv_ws = csv_wb.worksheets[0]
# Trích xuất dữ liệu từ CSV
cells = csv_ws.cells
data = []
for row_idx in range(cells.min_data_row, cells.max_data_row + 1):
row_data = []
for col_idx in range(cells.min_data_column, cells.max_data_column + 1):
row_data.append(cells.get(row_idx, col_idx).value)
data.append(row_data)
# Chuyển đổi thành DataFrame Pandas
headers = data[0]
rows = data[1:]
df = pd.DataFrame(rows, columns=headers)
# Show results
print(df.head())

Mẫu tệp Excel để chuyển đổi thành DataFrame Pandas qua CSV.
Output
Product A Product B Period
0 50 160 Q1
1 100 32 Q2
2 170 50 Q3
3 300 40 Q4
Làm việc với các tệp CSV lớn
Đối với các tập dữ liệu rất lớn, Aspose.Cells xử lý bộ nhớ tốt hơn so với Pandas thông thường. Bạn thậm chí có thể kích hoạt tối ưu hóa bộ nhớ. Thực hiện các bước tương tự như trước. Sự thay đổi duy nhất là tải tệp CSV với LoadOptions và đặt MEMORYPREFERENCE để xử lý các tệp lớn một cách hiệu quả.
Ví dụ mã sau đây cho thấy cách chuyển đổi một tệp CSV lớn thành một DataFrame pandas trong Python:
import aspose.cells as ac
import pandas as pd
# Tải tệp CSV lớn bằng Aspose.Cells
options = ac.LoadOptions()
options.memory_setting = ac.MemorySetting.MEMORY_PREFERENCE
csv_wb = ac.Workbook("large_file.csv", options)
csv_ws = workbook.worksheets[0]
# Extract data from CSV
cells = csv_ws.cells
data = []
for row_idx in range(cells.min_data_row, cells.max_data_row + 1):
row_data = []
for col_idx in range(cells.min_data_column, cells.max_data_column + 1):
row_data.append(cells.get(row_idx, col_idx).value)
data.append(row_data)
# Chuyển đổi thành DataFrame Pandas
headers = data[0]
rows = data[1:]
df = pd.DataFrame(rows, columns=headers)
# Show results
print(df.head())
Việc nhập CSV vào Pandas trở nên hiệu quả hơn trong các quy trình dữ liệu.
Nhận Giấy phép Miễn phí
Hãy thử Aspose.Cells for Python hôm nay để nâng cao việc chuyển đổi từ CSV sang DataFrame của Pandas. Download bản dùng thử miễn phí hoặc get a temporary license để khám phá đầy đủ các khả năng mà không có giới hạn.
CSV to DF: Tài nguyên miễn phí bổ sung
Bạn có thể sử dụng các tài nguyên dưới đây để khám phá thêm về việc nhập CSV, chuyển đổi DataFrame, và các tính năng xử lý Excel và CSV khác có sẵn trong Aspose.Cells for Python.
Kết luận
Trong hướng dẫn này, bạn đã học cách tải các tệp CSV trực tiếp vào Aspose.Cells và chuyển đổi chúng thành các DataFrame của Pandas, cũng như cách lưu các tệp Excel dưới dạng CSV trước khi nhập chúng. Cùng với Pandas, Aspose.Cells mang đến cho bạn sự kiểm soát, hiệu suất và tính linh hoạt lớn hơn, làm cho các nhiệm vụ xử lý dữ liệu của bạn đáng tin cậy và có khả năng mở rộng hơn.
Nếu bạn có bất kỳ câu hỏi nào hoặc cần hỗ trợ, vui lòng truy cập diễn đàn hỗ trợ miễn phí của chúng tôi. Đội ngũ hỗ trợ của chúng tôi có sẵn để giúp bạn.
