当前位置:首页 > 文章列表 > 文章 > python教程 > Pandas分组聚合与条形图教程

Pandas分组聚合与条形图教程

2025-10-15 17:09:33 0浏览 收藏

本教程深入解析Pandas分组聚合与条形图可视化技巧,旨在帮助数据分析师有效对比同一分组下的多个聚合指标。面对Pandas `groupby`操作后,如何将平均值、总和等不同聚合结果整合至同一图表,是数据分析的常见挑战。本教程提供了一套完整解决方案,通过`reset_index()`重置索引,使用`pd.merge`合并聚合数据框,并结合Matplotlib的`bar`或`barh`函数,灵活绘制分组条形图。无论是垂直或水平方向,都能清晰呈现多指标对比,有效解决直接链式调用绘图函数无法实现分组对比的问题,提升数据洞察力。学习本教程,掌握高效的数据可视化方法,让您的数据分析报告更具说服力。

合并Pandas groupby聚合结果并进行分组条形图可视化

本教程详细介绍了如何将Pandas groupby操作生成的不同聚合结果(如平均值和总和)合并到同一张图表中进行可视化。通过先将聚合后的数据框合并,然后利用Matplotlib的bar或barh函数,可以实现对复杂分组数据的多指标对比分析,有效解决直接链式调用绘图函数无法实现分组对比的问题。

在数据分析过程中,我们经常需要对数据集进行分组聚合,并对比同一分组下不同聚合指标的表现。例如,我们可能需要同时比较某个类别群体的平均值和总和。虽然Pandas提供了便捷的groupby().plot.barh()方法,但它通常用于绘制单个聚合指标的图表。当我们需要在同一图表中并排展示多个聚合指标时,就需要更灵活的绘图策略。

挑战:直接绘制多个聚合结果

考虑以下两种独立的聚合操作,它们分别计算了不同维度组合下的cnt(计数)的平均值和总和:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 假设 day_df 是您的原始DataFrame,包含 'yr', 'season', 'weathersit', 'cnt' 等列
# 为了示例,我们创建一个模拟的 day_df
data = {
    'yr': [0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1],
    'season': [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2],
    'weathersit': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    'cnt': [100, 150, 200, 250, 300, 350, 400, 450, 110, 160, 210, 260, 310, 360, 410, 460]
}
day_df = pd.DataFrame(data)

# 单独的聚合和绘图尝试
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).plot.barh()
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).plot.barh()

直接对这两个聚合结果分别调用.plot.barh()会生成两张独立的图表,无法进行直观的并排比较。尝试手动使用plt.bar函数,但如果数据准备不当,例如直接从多级索引的DataFrame中提取列,会导致索引错位或数据无法匹配的问题。

解决方案:合并聚合数据框并使用Matplotlib绘图

解决此问题的核心在于:首先将不同聚合指标的数据整合到一个统一的DataFrame中,然后利用Matplotlib的灵活性来绘制分组条形图。

1. 数据准备:聚合与合并

首先,我们需要对原始数据进行两次聚合,分别计算所需的指标(例如,总和和平均值),并将结果转换为普通的DataFrame,以便后续合并。reset_index()在此步骤中至关重要,它将多级索引转换为普通列,使得数据框可以基于这些列进行合并。

# 计算平均值并重置索引
day_mean_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).reset_index()

# 计算总和并重置索引
day_sum_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).reset_index()

# 合并数据框
# 使用 `on` 参数指定合并键,`suffixes` 参数处理同名列的后缀
merged_df = pd.merge(day_mean_dataframe, day_sum_dataframe, on=["yr", "season", "weathersit"], suffixes=('_mean', '_sum'))

print("合并后的数据框 (merged_df):")
print(merged_df)

merged_df现在包含了每个分组的平均值(cnt_mean)和总和(cnt_sum),为后续的统一绘图奠定了基础。

2. 绘制分组条形图(垂直方向)

使用Matplotlib的plt.subplots创建图表和坐标轴对象,然后利用ax.bar函数绘制分组条形图。关键在于为不同指标的条形图设置不同的x轴位置偏移量,使其并排显示。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 7)) # 调整图表大小以适应更多标签

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
width = 0.35 # 条形图的宽度

# 绘制平均值条形图
ax.bar(r1 - width/2, merged_df["cnt_mean"], width=width, label='平均值', color='skyblue')

# 绘制总和条形图,并向右偏移
ax.bar(r1 + width/2, merged_df["cnt_sum"], width=width, label='总和', color='lightcoral')

# 设置x轴刻度标签
# 将多级分组键组合成一个字符串作为标签
ax.set_xticks(r1)
ax.set_xticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()], rotation=45, ha='right')

# 添加图例和标题
ax.legend()
ax.set_xlabel('分组')
ax.set_ylabel('计数')
ax.set_title('各分组计数平均值与总和对比 (垂直条形图)')
plt.tight_layout() # 调整布局以避免标签重叠
plt.show()

3. 绘制分组条形图(水平方向)

对于分组标签较长或分组数量较多的情况,水平条形图(ax.barh)通常能提供更好的可读性。其原理与垂直条形图类似,只是交换了x轴和y轴的角色。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 8)) # 调整图表大小

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
height = 0.35 # 条形图的高度

# 绘制平均值条形图
ax.barh(r1 - height/2, merged_df["cnt_mean"], height=height, label='平均值', color='skyblue')

# 绘制总和条形图,并向上偏移
ax.barh(r1 + height/2, merged_df["cnt_sum"], height=height, label='总和', color='lightcoral')

# 设置y轴刻度标签
ax.set_yticks(r1)
ax.set_yticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()])

# 添加图例和标题
ax.legend()
ax.set_xlabel('计数')
ax.set_ylabel('分组')
ax.set_title('各分组计数平均值与总和对比 (水平条形图)')
plt.tight_layout() # 调整布局
plt.show()

注意事项与最佳实践

  1. reset_index() 的重要性:在groupby().agg()之后,结果通常是一个多级索引的Series或DataFrame。reset_index()将其转换为普通的DataFrame,并将索引级别转换为常规列,这对于后续的pd.merge()操作至关重要。
  2. suffixes 参数:在pd.merge()中,如果两个DataFrame有同名的非合并列,suffixes参数可以为这些列添加不同的后缀,避免列名冲突,例如cnt_mean和cnt_sum。
  3. 标签处理:当分组键包含多个维度时,如yr, season, weathersit,需要手动将它们组合成一个有意义的字符串作为刻度标签,以提高可读性。rotation和ha(horizontal alignment)参数可以帮助调整长标签的显示。
  4. 图表尺寸与布局:使用figsize调整图表大小,特别是当分组数量较多或标签较长时。plt.tight_layout()可以自动调整子图参数,使之填充整个图表区域,避免标签重叠。
  5. 颜色和图例:合理使用颜色区分不同的指标,并添加清晰的图例,有助于读者理解图表内容。
  6. 选择条形图方向
    • 垂直条形图 (ax.bar) 适用于分组数量较少、分组标签较短的情况。
    • 水平条形图 (ax.barh) 适用于分组数量较多、分组标签较长的情况,可以有效避免标签重叠,提高可读性。

总结

通过将Pandas的groupby聚合结果与pd.merge相结合,我们能够有效地整合来自不同聚合操作的数据。随后,利用Matplotlib提供的强大绘图功能,我们可以灵活地创建分组条形图,无论是垂直还是水平方向,都能清晰地展示多指标在同一分组下的对比情况。这种方法不仅解决了直接链式绘图的局限性,也为更复杂的数据可视化提供了坚实的基础。

本篇关于《Pandas分组聚合与条形图教程》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!

GolangWeb请求性能测试解析GolangWeb请求性能测试解析
上一篇
GolangWeb请求性能测试解析
Java中CopyOnWriteArraySet使用全解析
下一篇
Java中CopyOnWriteArraySet使用全解析
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    3186次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    3398次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    3429次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    4535次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    3807次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码