【Python】分组统计GroupBy技术详解-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

python是我的菜

1099

文章

858549

访问

+关注

分类

暂无分类

日期归档

2023-05(1)

2023-06(3)

【Python】分组统计GroupBy技术详解

发布于2019-08-07 12:13 阅读(943) 评论(0) 点赞(5) 收藏(4)

摘要

进行数据分析时，GroupBy分组统计是非常常用的操作，也是十分重要的操作之一。基本上大部分的数据分析都会用到该操作，本文将对Python的GroupBy分组统计操作进行讲解。
在这里插入图片描述
1.GroupBy过程
首先看看分组聚合的过程，主要包括拆分（split）、应用（Apply）和合并（Combine）

2.创建DataFrame

import pandas as pd
ipl_data = {'Team': ['Riders', 'Riders', 'Devils', 'Devils', 'Kings',
         'kings', 'Kings', 'Kings', 'Riders', 'Royals', 'Royals', 'Riders'],
         'Rank': [1, 2, 2, 3, 3,4 ,1 ,1,2 , 4,1,2],
         'Year': [2014,2015,2014,2015,2014,2015,2016,2017,2016,2014,2015,2017],
         'Points':[876,789,863,673,741,812,756,788,694,701,804,690]}
df = pd.DataFrame(ipl_data)
df
1
2
3
4
5
6
7
8

在这里插入图片描述

3.将df按照Team列分组
分组之后的grouped是个DataFrameGroupBy对象

grouped = df.groupby('Team')
grouped
1
2

在这里插入图片描述

4.查看df按照Team分组之后结果
按照不同的Team值来分组

grouped.groups
1

在这里插入图片描述

5.分组后的结果对Points求和

grouped['Points'].sum()
1

在这里插入图片描述
分组后常用操作包括：求和(sum)、平均值(mean)、计数(count)等等，如下图。

6.根据任意长度适当的数组分组

import numpy as np
key1 = np.array(list('abababbaaabb'))
df.groupby(key1).Team.count()
1
2
3

在这里插入图片描述

7.对分组进行迭代
GroupBy分组产生的是一组二元元组，有分组名和数据块组成。即(分组名、数据块)。

for name,group in df.groupby('Team'):
    print(name)
    print(group)
    print('*******分隔符*********')
1
2
3
4

在这里插入图片描述
另外，对于多重建分组的情况，元组的第一个元素将是由元组组成。
即（(分组名1,分组名2)、数据块）。

for (name1,name2),group in df.groupby(['Team','Rank']):
    print(name1)
    print(name2)
    print(group)
    print('*******分隔符*********')
1
2
3
4
5

图片结果太长，只显示了部分。
在这里插入图片描述

8.在不同轴上分组
GroupBy默认是在axis=0轴上进行分组的，也可以在axis=1轴上进行分组聚合，不过用的相对较少。

df.dtypes
1

在这里插入图片描述

grouped = df.groupby(df.dtypes, axis=1)
grouped.groups
1
2

在这里插入图片描述

9.通过字典或Series进行分组

people = pd.DataFrame(np.random.randn(5, 5),
                      columns=['a', 'b', 'c', 'd', 'e'],
                      index=['Joe', 'Steve', 'Wes', 'Jim','Travis'])
people.iloc[2:3, [1, 2]] = np.nan
people
1
2
3
4
5

在这里插入图片描述
根据字典聚合

mapping = {'a': 'red', 'b': 'red', 'c': 'blue',
           'd': 'blue', 'e': 'red', 'f' : 'orange'}
by_column = people.groupby(mapping, axis=1)
by_column.sum()
1
2
3
4

在这里插入图片描述
根据Series聚合

map_series = pd.Series(mapping)
people.groupby(map_series, axis=1).count()
1
2

在这里插入图片描述

10.通过函数进行分组

people.groupby(len).sum()
1

在这里插入图片描述

11.函数、数组、列表、字典、Series组合分组

key_list = ['one', 'one', 'one', 'two', 'two']
people.groupby([len, key_list]).min()
1
2

在这里插入图片描述

12.根据索引级别分组
回到最初的DataFrame，给他重新定义成双层索引，并且给索引命名

df.columns = ([['a','a','a','b'],['Team', 'Rank', 'Year', 'Points']])
df.columns.names = ['one','two']
df
1
2
3

在这里插入图片描述
之后对索引名为one的进行分组聚合

df.groupby(level='one',axis=1).count()
1

在这里插入图片描述

12.多函数聚合
其中多函数聚合中也可以使用自定义函数。

df.columns = ['Team','Rank','Year','Points']
df.groupby('Team')['Points'].agg(['sum','mean','std'])
1
2

在这里插入图片描述

13.apply：一般性的“拆分-应用-合并”
定义函数：

def top(df,n=2,column='Points'):
    return df.sort_index(by=column,ascending=False)[:n]
1
2

应用：

df.groupby('Team').apply(top)
1

在这里插入图片描述
同时给apply函数传入参数：

df.groupby('Team').apply(top,n=3)
1

在这里插入图片描述

欢迎添加个人微信号：liu2536036458。

想进入交流群的，备注：数据分析交流群

我们下次再见，如果还有下次的话！！！
欢迎关注微信公众号：516数据工作室

程序员说：42岁了，突然觉得研发前途渺茫

中国程序员数量达755万，全球排名第二

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的？

程序员说：30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

python精选：Python 办公实战！按姓名拆分 Excel 为单独文件，微信自动发给相应联系人

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

所属网站分类: 技术文章 > 博客

作者：python是我的菜

链接：https://www.pythonheidong.com/blog/article/10687/f0e1b235ef8f983d3ef4/

来源：python黑洞网

任何形式的转载都请注明出处,如有侵权一经发现必将追究其法律责任

5 0

收藏该文

昵称:

评论内容：(最多支持255个字符)

---无人问津也好，技不如人也罢，你都要试着安静下来，去做自己该做的事，而不是让内心的烦躁、焦虑，坏掉你本来就不多的热情和定力

站长公众号(new) 更多>

程序员说：42岁了，突然觉得研发前途渺茫

中国程序员数量达755万，全球排名第二

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的？

程序员说：30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

python精选：Python 办公实战！按姓名拆分 Excel 为单独文件，微信自动发给相应联系人

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

pdf(new) 更多>

git常用命令pdf下载

《从零开始学Python网络爬虫》PDF高清版免费下载

《Python游戏编程快速上手》PDF高清版免费下载

【每日书籍推荐】PYTHON 项目开发实战_超高清PDF

《父与子的编程之旅：与小卡特一起学Python》PDF高清版免费下载

《Effective Python》pdf高清版下载

【每日推荐书籍】《Python3网络爬虫开发实战》

【每日一本书】《Python编程快速上手让繁琐工作自动化》

《Python从小白到大牛》PDF高清版免费下载

《Python编程：从入门到实践（第2版）》

脚本(new) 更多>

五年级同学BMI指数计算器

用python做---，pythonos2.2.0-1版

使用Discord.py个人号创建Discord Bot 提示 401 Unauthorized

新手训练短语

opencv实现视频截取

python练习题

用python画国旗

抖音最火表白代码下载

python文件解压脚本

python分类文件脚本下载

博客(new) 更多>

Python使用Matplotlib库绘制双y轴图形（柱状图+折线图）

Python中使用matplotlib时显示中文乱码_(或更改字体)

Python 列表 pop()函数使用详解

17 Python的os模块

Python皮卡丘

Python提取JSON格式数据

python 爱心代码

python萌新爬虫学习笔记【建议收藏】

【2023华为杯F题】强对流降水临近预报（Python&Matlab代码分享）

warning: retrying (retry(total=4, connect=none, read=none, redirect=none, st

视频(new) 更多>

2020最新_Python_(MySQL_SQL_Redis)数据库详解【千锋】

2019版-千锋Python语法-视频

2019千锋Python爬虫全套视频（最经典）

13天搞定Python分布爬虫视频教程

python办公自动化

python深度学习系列教程

python视频神经网络 Tensorflow 模块视频教程

初级Python视频教程云盘

初级Python视频教程推荐

python视频各种视频很多

实战(new) 更多>

韩顺平TCP网络文件传输课程代码word下载

基于python的ARP扫描与断网攻击的图形化脚本

bootstrap-datetimepicker搞了一天也不显示，请教！

这个项目是人人网的爬虫程序

这是一个利用Python分析一个json数据，并可视化输出结果的小项目

一个Mp3播放器 Python项目实战

一个自动发送邮箱验证码的小项目源码下载

python 加密解密的程序 .py下载

PYTHON实现计算机功能

PYTHON定时关机

问答(new) 更多>

modbus tcp 与王鸽 RTU5026

如何在数据框中创建新列以根据 Python Pandas 中的日期列对每个 id 的值进行排序？[复制]

索引/数组故障排除：家庭作业

Pytorch安装

mysql.connector.errors.InterfaceError：执行操作失败；

如何将发出请求的用户分配给 Django 模型中的外键字段

如何在 python 中将日期时间格式化为字符串“yyyy-MM-dd'T'HH:mm:ss.SSSZ'”格式

如何使用 PyQt 信号发出 64 位无符号整数

如何在Android上使用“pyqtdeploy”Windows pyqt5？[关闭]

将数据（超过 1 点）添加到绘图破折号中的现有迹线

游戏(new) 更多>

用python写滑雪游戏源码下载

用python写乒乓球游戏源码下载

python吃豆子小游戏源码下载

外星人入侵 python小游戏源码下载

帅哥吃苹果 python小游戏源码下载

小恐龙快跑 python小游戏源码下载

python小游戏拼图源码下载

风筝 python小游戏源码下载

迷宫-python小游戏源码下载

python小游戏 life

其他资源(new) 更多>

王道机试

python做乘法口诀表

纯净版python 3.7开发环境安装包

视觉SLAM十四讲 - 从理论到实践

Python正则表达式教程下载

Vue+Go前端后端一体化企业级微服务网关项目

尚硅谷java基础入门视频下载

尚硅谷java基础入门视频

超基础初一生反utPython程序(只是一个文本)

注册表实用手册

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

【Python】分组统计GroupBy技术详解

摘要

程序员最近都爱上了这个网站 程序员们快来瞅瞅吧！ it98k网:it98k.com

分类

标签

日期归档

【Python】分组统计GroupBy技术详解

摘要

程序员最近都爱上了这个网站程序员们快来瞅瞅吧！ it98k网:it98k.com