PySpark多列聚合与行处理技巧详解
目前golang学习网上已经有很多关于文章的文章了,自己在初次阅读这些文章中,也见识到了很多学习思路;那么本文《PySpark多列聚合与行式结果处理技巧》,也希望能帮助到大家,如果阅读完后真的对你学习文章有帮助,欢迎动动手指,评论留言并分享~

本教程详细介绍了如何在PySpark DataFrame中对多个列应用多个聚合函数(如`min`和`max`),并将结果以行式结构呈现。通过分步演示,我们展示了如何利用`select`进行初步聚合,并结合`unionByName`技巧将聚合结果重塑为易于分析的行式格式,适用于需要定制化聚合报告的场景。
在PySpark数据处理中,我们经常需要对DataFrame的多个列执行聚合操作,例如计算每个列的最小值和最大值。虽然PySpark的agg函数能够方便地进行多列多函数聚合,但其默认输出是将所有聚合结果并列在一行中。然而,在某些分析场景下,我们可能需要将不同聚合函数的结果以行(row-wise)的形式展示,即每一行代表一个聚合函数(如最小值、最大值),而列则对应原始DataFrame的列。本教程将详细介绍如何实现这种定制化的行式聚合输出。
1. 问题背景与常见误区
假设我们有一个PySpark DataFrame,并希望计算其中所有数值列的最小值和最大值。一个常见的初步尝试可能是使用列表推导式结合agg函数:
from pyspark.sql import functions as F # 假设 df 是一个 PySpark DataFrame # exprs = [F.min(c).alias(c), F.max(c).alias(c) for c in df.columns] # df2 = df.agg(*exprs)
这种方法虽然可以计算出所有列的最小值和最大值,但其结果会是一个单行DataFrame,其中包含类似 min_col1, max_col1, min_col2, max_col2 等列。这与我们期望的“第一行是所有列的最小值,第二行是所有列的最大值”的行式输出格式不符。
2. 实现行式聚合输出的策略
为了实现行式聚合输出,我们需要采取一种分两步走的策略:
- 初步聚合所有函数的结果到单行DataFrame: 首先,我们将所有需要的聚合函数(例如,每个列的min和max)应用到DataFrame,生成一个包含所有聚合结果的单行DataFrame。
- 重塑DataFrame为行式输出: 接着,我们将这个单行DataFrame拆分成多个逻辑行,每行代表一个聚合函数的结果,并通过unionByName将它们合并起来。
3. 详细实现步骤
让我们通过一个具体的例子来演示这个过程。
3.1 准备示例数据
首先,创建一个示例PySpark DataFrame:
import operator
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
# 初始化 SparkSession
spark = SparkSession.builder.appName("PySparkMultiAggTutorial").getOrCreate()
_data = [
(4, 123, 18, 29),
(8, 5, 26, 187),
(2, 97, 18, 29),
]
_schema = ['col_1', 'col2', 'col3', 'col_4']
df = spark.createDataFrame(_data, _schema)
print("原始DataFrame:")
df.show()
# +-----+----+----+-----+
# |col_1|col2|col3|col_4|
# +-----+----+----+-----+
# | 4| 123| 18| 29|
# | 8| 5| 26| 187|
# | 2| 97| 18| 29|
# +-----+----+----+-----+3.2 第一步:初步聚合所有函数的结果
我们首先为每个列生成min和max的聚合表达式,并使用df.select()来执行这些聚合。这里使用select而不是agg是因为select可以接受多个表达式作为参数,并直接创建新的列。
# 为每个列生成 min 和 max 聚合表达式
min_vals = [F.min(c).alias(f'min_{c}') for c in df.columns]
max_vals = [F.max(c).alias(f'max_{c}') for c in df.columns]
# 将所有聚合表达式合并,并使用 select 得到一个单行 DataFrame
# 注意:这里也可以使用 df.agg(*min_vals, *max_vals),效果类似
df_aggregated_single_row = df.select(min_vals + max_vals)
print("初步聚合后的单行DataFrame:")
df_aggregated_single_row.show()
# +-------+------+-------+--------+-------+-------+-------+--------+
# |min_col_1|min_col2|min_col3|min_col_4|max_col_1|max_col2|max_col3|max_col_4|
# +-------+------+-------+--------+-------+-------+-------+--------+
# | 2| 5| 18| 29| 8| 123| 26| 187|
# +-------+------+-------+--------+-------+-------+-------+--------+注意事项: 如果df_aggregated_single_row后续会被多次使用,为了优化性能,建议对其进行cache()操作:df_aggregated_single_row.cache()。
3.3 第二步:重塑DataFrame为行式输出
现在我们有了包含所有聚合结果的单行DataFrame (df_aggregated_single_row)。接下来,我们需要将其重塑为期望的行式输出。这涉及到为每种聚合类型(如min和max)创建单独的DataFrame,并添加一个标识聚合类型的列,然后通过unionByName合并它们。
# 1. 创建 min 结果的 DataFrame
# - 添加 'agg_type' 列标识为 'min'
# - 重命名聚合列回原始列名
min_cols = operator.add(
[F.lit('min').alias('agg_type')], # 添加聚合类型标识列
[F.col(f'min_{c}').alias(c) for c in df.columns] # 选择并重命名 min_xxx 列
)
min_df = df_aggregated_single_row.select(min_cols)
# 2. 创建 max 结果的 DataFrame
# - 添加 'agg_type' 列标识为 'max'
# - 重命名聚合列回原始列名
max_cols = operator.add(
[F.lit('max').alias('agg_type')], # 添加聚合类型标识列
[F.col(f'max_{c}').alias(c) for c in df.columns] # 选择并重命名 max_xxx 列
)
max_df = df_aggregated_single_row.select(max_cols)
# 3. 使用 unionByName 合并 min_df 和 max_df
# unionByName 要求两个 DataFrame 具有相同的列名和类型
result_df = min_df.unionByName(max_df)
print("\n最终行式聚合结果:")
result_df.show()
# +--------+-----+----+----+-----+
# |agg_type|col_1|col2|col3|col_4|
# +--------+-----+----+----+-----+
# | min| 2| 5| 18| 29|
# | max| 8| 123| 26| 187|
# +--------+-----+----+----+-----+这里的operator.add用于连接两个列表,它与直接使用+的效果相同,例如 [F.lit('min').alias('agg_type')] + [F.col(f'min_{c}').alias(c) for c in df.columns]。
4. 总结与扩展
这种方法提供了一个灵活且强大的模式,用于在PySpark中实现复杂的行式聚合输出。
- 核心思想: 将多函数聚合分解为两个阶段:首先进行所有聚合生成单行结果,然后通过选择、重命名和unionByName操作将单行结果重塑为多行。
- 可扩展性: 这种模式可以轻松扩展到更多的聚合函数,例如平均值 (F.avg)、标准差 (F.stddev)、计数 (F.count) 等。只需为每个新的聚合函数重复“生成聚合表达式 -> 创建新的 DataFrame -> 与现有结果 unionByName”的步骤即可。
- 性能考量: 对于大型DataFrame,df_aggregated_single_row.cache() 是一个重要的优化点,可以避免重复计算。
- 通用性: 这种方法不仅限于min和max,任何可以表示为PySpark SQL函数的聚合都可以通过类似的方式处理。
通过掌握这种技巧,开发者可以更灵活地控制PySpark聚合结果的呈现方式,以满足各种数据分析和报告的需求。
本篇关于《PySpark多列聚合与行处理技巧详解》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!
猫眼电影选座差原因及解决方法
- 上一篇
- 猫眼电影选座差原因及解决方法
- 下一篇
- Windows10用户配置文件服务无法启动解决方法
-
- 文章 · python教程 | 24分钟前 | 数据验证 自定义函数 异常处理 条件验证 Pythoncheck函数
- Pythoncheck函数使用方法详解
- 374浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- Python语言入门与基础解析
- 296浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- PyMongo导入CSV:类型转换技巧详解
- 351浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- Python列表优势与实用技巧
- 157浏览 收藏
-
- 文章 · python教程 | 9小时前 |
- Pandas修改首行数据技巧分享
- 485浏览 收藏
-
- 文章 · python教程 | 11小时前 |
- Python列表创建技巧全解析
- 283浏览 收藏
-
- 文章 · python教程 | 11小时前 |
- Python计算文件实际占用空间技巧
- 349浏览 收藏
-
- 文章 · python教程 | 12小时前 |
- OpenCV中OCR技术应用详解
- 204浏览 收藏
-
- 文章 · python教程 | 13小时前 |
- Pandas读取Django表格:协议关键作用
- 401浏览 收藏
-
- 文章 · python教程 | 13小时前 | 身份验证 断点续传 requests库 PythonAPI下载 urllib库
- Python调用API下载文件方法
- 227浏览 收藏
-
- 文章 · python教程 | 13小时前 |
- Windows7安装RtMidi失败解决办法
- 400浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3182次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3393次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3425次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4529次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3802次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

