网站首页 > 人工智能 > 正文

python 数据分析数据挖掘【Pandas分组聚合】 groupby()、agg() 方法的使用

app制作人工智能 2024-02-09 10 0

Pandas分组聚合

创建一个dataframe结构分组函数 groupby()初识分组聚合多重行索引分组聚合对多列数据进行分组聚合综合应用

聚合函数 agg（aggregate）求多列数据的多个指标对多列数据统计不同的指标对多列数据统计不同个数的指标agg调用自定义函数使用agg 调用numpy的统计指标

创建一个dataframe结构

import pandas as pd

df = pd.DataFrame(

data={

'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'],

'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80],

'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],

'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'],

'height': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0]

index=['stu_' + str(i) for i in np.arange(1, 13, 1)]

)

print('df:\n', df)

分组函数 groupby()

初识分组聚合

我们可以通过DataFrame.groupby(by=[”column“]) 方法对数据进行分组，再根据需求进行聚合操作。

统计各个班的最高的成绩：

# 先按照班级进行分组，再统计各个组里面的成绩的最大值！

ret = df.groupby(by=['cls'])['score'].max().reset_index()

print('ret:\n', ret)

分开来看就是：

ret = df.groupby(by=['cls']) # 将数据以 cls 进行分组，返回 DataFrameGroupBy 对象

print(ret) #

ret = ret['score'] # 取出 score 列，返回 SeriesGroupBy 对象

print(ret) #

ret = ret.max() # 取出 score 中的最大值，返回 Series 对象

print(ret)

"""

cls

A 100

B 89

Name: score, dtype: int64

"""

ret = ret.reset_index() # 重设索引，返回 DataFrame 对象

print(ret)

"""

cls score

0 A 100

1 B 89

"""

多重行索引分组聚合

统计各个班的各个小组的最高成绩

# 先按照班级分组，再按照小组分组，最后统计各个小组内成绩的最大值

ret = df.groupby(by=['cls', 'group'])['score'].max()

print('ret:\n', ret)

print('index:\n', ret.index) # MultiIndex ---多重行索引

ret = ret.reset_index() # 重设索引

print(ret)

对多列数据进行分组聚合

统计各个班级的成绩、身高的平均值：

# 按照班级分组，统计各个组内成绩、身高的平均值

ret = df.groupby(by=['cls'])[['score', 'height']].mean().reset_index()

print('ret:\n', ret)

综合应用

统计各个班级、各个小组的成绩、身高的平均值

# 先按照班级分组、再按照小组分组---统计各个小组内的成绩的平均值、身高的平均值

ret = df.groupby(by=['cls', 'group'])[['score', 'height']].mean().reset_index()

print('ret:\n', ret)

聚合函数 agg（aggregate）

在Pandas中，agg和aggregate两个函数指向同一个方法，使用时写任意一个即可。

求多列数据的多个指标

统计成绩、身高的最大值、均值

# 使用agg 方法可以对多列数据一次性求出多个指标

ret = df.loc[:, ['score', 'height']].agg([np.max, np.mean])

print('ret:\n', ret)

对多列数据统计不同的指标

统计成绩的均值、同时统计身高的最大值

ret = df.agg({'score': [np.mean], 'height': [np.max]})

print('ret:\n',ret)

对多列数据统计不同个数的指标

统计成绩的均值、最大值、中位数和身高的均值

ret = df.agg({'score': [np.mean, np.max, np.median], 'height': [np.mean]})

print('ret:\n', ret)

使用agg 方法也可以配合着分组对不同列、不同的数据、统计不同个数的不同指标！

ret = df.groupby(by=['cls']).agg({'height': [np.max,np.mean], 'score': [np.min]})

print('ret:\n', ret)

agg调用自定义函数

ret = df.loc[:, 'score'].agg(lambda x: x + 1)

print('ret1:\n', ret)

def func_add_one(x):

return x + 1

ret = df.loc[:, 'score'].agg(func_add_one)

print('ret2:\n', ret)

# 对多列使用自定义函数

ret = df.loc[:, ['score', 'height']].agg(func_add_one)

print('ret3:\n', ret)

使用agg 调用numpy的统计指标

# 统计所有同学成绩的和

ret = df.loc[:, 'score'].agg(np.sum)

print('ret:\n',ret)

print('type:\n',type(ret))

# # 统计所有同学成绩以及身高的和

ret = df.loc[:, ['score', 'height']].agg(np.sum)

print('ret:\n', ret)

print('type:\n',type(ret))

# 统计身高 + 成绩（无意义的，只是为了演示能够同一行相加）

ret = df.loc[:, ['score', 'height']].agg(np.sum, axis=1) # 使用axis指定相加的方向

print('ret:\n', ret)

print('type:\n',type(ret))

除了以上方法之外，还可以使用自定义方法聚合，可以参见我的这篇文章：Pandas使用自定义方法

精彩内容

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

python 数据分析数据挖掘

本文由用户于 2024-02-09 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18515589.html

金钥匙

python 数据分析数据挖掘【Pandas分组聚合】 groupby()、agg() 方法的使用

深度学习自然语言处理 Github Copilot编程工具背后的算法技术

人工智能深度学习时空数据挖掘新思路！25篇顶会论文汇总，含2024最新！

发表评论取消回复

金钥匙

python 数据分析 数据挖掘 【Pandas分组聚合】 groupby()、agg() 方法的使用

深度学习 自然语言处理 Github Copilot编程工具背后的算法技术

人工智能 深度学习 时空数据挖掘新思路！25篇顶会论文汇总，含2024最新！

相关文章

发表评论取消回复

python 数据分析数据挖掘【Pandas分组聚合】 groupby()、agg() 方法的使用

深度学习自然语言处理 Github Copilot编程工具背后的算法技术

人工智能深度学习时空数据挖掘新思路！25篇顶会论文汇总，含2024最新！