超实用!用Python快速实现数据分组统计与透视表

ccvgpt 2025-02-11 11:09:51 基础教程 18 ℃

在Python数据分析领域，Pandas库中的GroupBy功能提供了强大的数据分组和聚合能力。通过GroupBy，我们可以根据一个或多个列对DataFrame进行分割、应用函数并重新组合结果，从而实现数据集的深入分析和统计。本文将详细介绍如何使用Pandas GroupBy进行分组统计，并结合实际代码示例展示其应用场景。

GroupBy基础操作

假设我们有一个包含用户购买记录的数据集：

import pandas as pd

# 创建一个简单的DataFrame
data = {'User': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
        'Product': ['Apple', 'Banana', 'Orange', 'Apple', 'Banana', 'Orange'],
        'Quantity': [3, 2, 1, 4, 5, 3],
        'Price': [0.5, 0.25, 0.75, 0.5, 0.25, 0.75]}
df = pd.DataFrame(data)

print(df)

按单一列分组

grouped = df.groupby('User')

# 计算每个用户的总购买量（Quantity之和）
total_quantity = grouped['Quantity'].sum()
print(total_quantity)

# 计算每个用户的总消费金额（Quantity * Price之和）
total_spending = grouped[['Quantity', 'Price']].sum().prod(axis=1)
print(total_spending)

按多个列分组

grouped_multi = df.groupby(['User', 'Product'])

# 每个用户对每种产品的购买总量
product_purchases = grouped_multi['Quantity'].sum()
print(product_purchases)

更复杂的分组统计操作

1. 应用自定义函数

# 计算每个用户购买产品种类的数量
unique_products_per_user = df.groupby('User')['Product'].nunique()
print(unique_products_per_user)

2. 使用agg方法进行多重聚合

# 对每个用户计算购买量的平均值和总和
aggregated_stats = df.groupby('User')['Quantity'].agg(['mean', 'sum'])
print(aggregated_stats)

3. 分层索引与透视表

# 创建一个带有层次索引的分组统计结果
multi_index_grouped = df.groupby(['User', 'Product']).sum()

# 将多级索引的结果转换为透视表形式
pivot_table = multi_index_grouped.unstack()
print(pivot_table)

进阶应用及注意事项

分组后的过滤操作：可以结合filter()方法，在分组后对满足特定条件的组进行筛选。
处理缺失值：在执行分组操作前，应先对数据进行清洗，处理缺失值，以避免影响分组结果。
性能优化：对于大型数据集，可利用groupby()配合apply()函数分块处理数据，提高运算效率。

总结

Pandas GroupBy功能是数据分析过程中的重要工具，它能够帮助我们从不同维度深入理解数据，发现隐藏的规律和趋势。熟练掌握GroupBy的各种用法，将极大地提升Python Web开发中数据处理的能力，特别是在数据挖掘、报表生成以及机器学习特征工程等场景中发挥关键作用。

关注我，手把手带你快速入门 AI 机器学习编程！

网站首页 > 基础教程正文

超实用!用Python快速实现数据分组统计与透视表

GroupBy基础操作

更复杂的分组统计操作

进阶应用及注意事项

总结

猜你喜欢

网站首页 > 基础教程 正文

超实用!用Python快速实现数据分组统计与透视表

GroupBy基础操作

更复杂的分组统计操作

进阶应用及注意事项

总结

猜你喜欢

网站首页 > 基础教程正文