Pandas连续分组技巧与统计方法详解
本文深入解析了Pandas中针对连续值分组的实用技巧与统计方法,突破了传统`groupby()`函数的局限性。针对数据框中连续出现的相同值,文章提出了一种巧妙的解决方案:通过`shift()`、`ne()`和`cumsum()`函数的组合,动态构建分组键,从而实现对连续数据块的精确分析。结合`groupby()`和`transform()`方法,可以高效计算指定列的聚合统计量,如最大值,并将其广播回原始DataFrame,保持数据结构不变。该方法在时间序列分析、数据清洗、特征工程等领域具有广泛的应用前景,例如识别连续上涨/下跌的股票价格并计算最大涨幅,为数据分析师提供了更灵活、高效的数据处理工具。
1. 问题背景:传统分组的局限性
在数据分析中,我们经常需要对数据进行分组聚合。Pandas的groupby()函数是实现这一目标的核心工具。然而,当需求是针对某一列中“连续出现”的相同值进行分组时,传统的df.groupby('column_name')方法可能无法满足要求。这是因为传统groupby会将所有具有相同值的行聚合在一起,而不管它们在原始数据框中的位置是否连续。
例如,考虑以下数据集:
import pandas as pd data = { 'Fruits': ['Apple', 'Apple', 'Banana', 'Orange', 'Apple', 'Apple'], 'Price': [20, 30, 50, 170, 55, 90] } df = pd.DataFrame(data) print(df)
输出:
Fruits Price 0 Apple 20 1 Apple 30 2 Banana 50 3 Orange 170 4 Apple 55 5 Apple 90
我们的目标是计算每组连续相同水果的最高价格。具体来说,我们希望第一组连续的“Apple” (索引0, 1) 的最大价格是30,而第二组连续的“Apple” (索引4, 5) 的最大价格是90。如果直接使用 df.groupby('Fruits')['Price'].max(),结果会是所有“Apple”中的最大值90,这不符合按连续块分组的要求。
2. 核心解决方案:动态分组键的构建
要解决这个问题,我们需要一个机制来为每一段连续的相同值生成一个唯一的组标识符。Pandas提供了强大的工具组合来实现这一点:shift()、ne()(或!=)和cumsum()。
2.1 步骤一:识别连续块的边界
首先,我们需要识别出连续块开始的位置。这可以通过比较当前行的值与上一行的值来实现。如果它们不相等,则意味着一个新的连续块开始了。
# 比较当前行与上一行'Fruits'列的值是否不相等 # df.Fruits.shift() 会将'Fruits'列向下移动一位,第一位变为NaN # df.Fruits.ne(...) 等同于 df.Fruits != ... new_block_start = df.Fruits.ne(df.Fruits.shift()) print(new_block_start)
输出:
0 True # 'Apple'与NaN不相等,视为新块开始 1 False # 'Apple'与'Apple'相等 2 True # 'Banana'与'Apple'不相等,新块开始 3 True # 'Orange'与'Banana'不相等,新块开始 4 True # 'Apple'与'Orange'不相等,新块开始 5 False # 'Apple'与'Apple'相等 Name: Fruits, dtype: bool
这个布尔序列准确地标记了每个新连续块的起始位置。
2.2 步骤二:生成唯一的分组ID
有了新块的起始标记,我们可以使用 cumsum()(累积求和)来生成唯一的组ID。cumsum()会将 True 视为1,False 视为0,并进行累加。每当遇到一个 True(即新块开始),累加值就会增加1,从而为该连续块分配一个唯一的ID。
grp = df.Fruits.ne(df.Fruits.shift()).cumsum() print(grp)
输出:
0 1 1 1 2 2 3 3 4 4 5 4 Name: Fruits, dtype: int64
现在,我们得到了一个完美的组ID序列:
- 索引0和1(连续的'Apple')被分到组1。
- 索引2('Banana')被分到组2。
- 索引3('Orange')被分到组3。
- 索引4和5(连续的'Apple')被分到组4。
每个连续的相同水果类型都拥有了一个独特的组ID。
3. 应用聚合操作:groupby()与transform()
有了这个动态生成的分组键 grp,我们就可以使用 groupby() 进行分组聚合了。关键在于使用 transform('max') 而不是 agg('max')。
- groupby(grp):根据我们刚刚创建的 grp 系列进行分组。
- ['Price']:选择我们要计算最大值的列。
- transform('max'):这是核心。与 agg('max') 不同,transform() 会在每个组内执行指定的操作(这里是求最大值),并将结果“广播”回原始DataFrame的对应行,保持原有的索引和形状。这意味着,如果一个组有N行,transform 就会返回N个相同的最大值,每个对应组内的一行。
# 完整的解决方案代码 grp = df.Fruits.ne(df.Fruits.shift()).cumsum() df['Max'] = df.groupby(grp)['Price'].transform('max') print(df)
最终输出:
Fruits Price Max 0 Apple 20 30 1 Apple 30 30 2 Banana 50 50 3 Orange 170 170 4 Apple 55 90 5 Apple 90 90
结果完全符合我们的预期:第一组连续的“Apple”的最大值是30,第二组连续的“Apple”的最大值是90。其他水果也各自计算了其连续块内的最大值(由于它们是单行块,最大值就是其自身价格)。
4. 拓展与注意事项
- 通用性: 这种技术不仅限于计算最大值。你可以将 transform('max') 替换为 transform('min')、transform('mean')、transform('sum') 或任何其他聚合函数,以计算连续块内的其他统计量。
- 应用场景:
- 时间序列分析: 识别连续几天上涨/下跌的股票价格,并计算其最大涨幅。
- 数据清洗: 标记或处理连续出现的重复值。
- 特征工程: 为机器学习模型创建基于连续事件的特征。
- 性能考量: Pandas的groupby()和transform()是高度优化的C实现,对于大型数据集通常表现出良好的性能。
- 缺失值处理: shift()操作会在第一行引入 NaN。ne()函数能够正确处理 NaN 与非 NaN 的比较(NaN != value 通常为 True,NaN != NaN 通常为 True,除非使用 pd.isna().ne(pd.isna().shift()) 这种方式)。在实际应用中,如果你的分组列中存在 NaN,可能需要额外考虑如何处理它们(例如,使用 fillna() 预处理,或根据需求调整逻辑)。
总结
通过巧妙地结合使用 shift()、ne() 和 cumsum() 来创建动态分组键,并配合 groupby() 和 transform() 方法,Pandas能够高效且准确地实现对数据框中连续相同值块的聚合操作。这种方法比传统的循环或简单的groupby更具效率和灵活性,是处理复杂分组聚合需求时的强大工具。
今天关于《Pandas连续分组技巧与统计方法详解》的内容就介绍到这里了,是不是学起来一目了然!想要了解更多关于的内容请关注golang学习网公众号!

- 上一篇
- 豆包AI代码生成技巧全解析

- 下一篇
- HTML5自定义元素怎么用?如何创建新标签?
-
- 文章 · python教程 | 31分钟前 |
- Python解析XML:ElementTree使用详解
- 284浏览 收藏
-
- 文章 · python教程 | 44分钟前 |
- USDA食品数据API分页获取方法
- 393浏览 收藏
-
- 文章 · python教程 | 55分钟前 |
- DjangoLDAP用户管理误区解析
- 462浏览 收藏
-
- 文章 · python教程 | 1小时前 | 运行环境 Python版本 sys模块 platform模块 subprocess模块
- 查看Python版本的几种方法
- 494浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- PythonCLI开发:Click库实用技巧分享
- 148浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- 用Python抓包:Scapy网络嗅探实战教程
- 399浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python操作Redis事务详解
- 363浏览 收藏
-
- 文章 · python教程 | 2小时前 | Python性能优化 cProfile snakeviz timeit模块 line_profiler
- Python脚本计时技巧全解析
- 166浏览 收藏
-
- 文章 · python教程 | 2小时前 | 数据提取 Requests beautifulsoup 网页数据抓取 Python爬虫
- Python爬虫入门教程详解
- 466浏览 收藏
-
- 文章 · python教程 | 2小时前 | Python 时间戳 时间格式化 timedelta datetime模块
- Python获取当前时间的几种方法
- 132浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- 用Python做战舰游戏:教程与代码分享
- 106浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 432次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 427次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 426次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 444次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 460次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览