Pandas多条件列生成技巧详解
IT行业相对于一般传统行业,发展更新速度更快,一旦停止了学习,很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习,精进自己的技术,尤其是初学者。今天golang学习网给大家整理了《Pandas多条件列生成:列表推导式与apply方法详解》,聊聊,我们一起来看看吧!

1. 基于多列条件的列生成需求
在数据分析实践中,我们经常需要根据DataFrame中现有的一列或多列的值,来计算或生成一个新的列。例如,根据姓名输入框1和姓名输入框2的内容来确定最终的姓氏。一个常见的需求是,如果“姓名输入框1”不为空但“姓名输入框2”为空,则将姓氏标记为“MISSING”,否则使用“姓名输入框2”的值。
初学者可能会尝试使用列表推导式来直接迭代多个Series,例如:
import pandas as pd
# 示例数据
data = {
'Name Entry 1': ['John', '', 'Jane', 'Peter'],
'Name Entry 2': ['Doe', 'Smith', '', 'Jones']
}
names_df = pd.DataFrame(data)
# 错误的尝试
# names_df['Surname'] = [
# 'MISSING' if i != '' and j == '' else j
# for i, j in names_df['Name Entry 1'], names_df['Name Entry 2']
# ]
# 这会导致SyntaxError上述代码会抛出SyntaxError,因为在Python的列表推导式中,for循环后面不能直接跟多个迭代器用逗号分隔。
2. 修正列表推导式:使用zip函数
要正确地在列表推导式中同时迭代多个Series,需要使用Python内置的zip函数。zip函数可以将多个可迭代对象打包成一个元组的迭代器,每次迭代返回一个包含对应元素的新元组。
修正后的列表推导式示例如下:
import pandas as pd
# 示例数据
data = {
'Name Entry 1': ['John', '', 'Jane', 'Peter'],
'Name Entry 2': ['Doe', 'Smith', '', 'Jones']
}
names_df = pd.DataFrame(data)
names_df['Surname_zip'] = [
'MISSING' if i != '' and j == '' else j
for i, j in zip(names_df['Name Entry 1'], names_df['Name Entry 2'])
]
print("使用zip的列表推导式结果:")
print(names_df)优点:
- 对于简单的条件逻辑,代码非常简洁和Pythonic。
- 执行效率通常比apply方法高,因为它在Python层面上直接处理列表,而不是通过Pandas的行迭代机制。
缺点:
- 当条件变得复杂(例如,涉及多个elif分支)时,列表推导式内部的逻辑会迅速变得难以阅读和维护。
- 不适合处理需要访问整行数据或进行更复杂计算的场景。
3. 处理复杂逻辑:结合apply()与自定义函数
当条件逻辑变得复杂,涉及多个if/elif/else分支时,将所有逻辑塞进一个列表推导式中会严重影响代码的可读性和可维护性。在这种情况下,Pandas的df.apply()方法结合自定义函数是更优的选择。
df.apply()方法可以沿着DataFrame的轴应用一个函数。当axis=1时,函数会逐行地接收一个Pandas Series(代表当前行),我们可以在函数内部通过列名访问该行中的各个值。
以下是使用apply()方法实现相同逻辑的示例,并展示了如何扩展以处理更多条件:
import pandas as pd
# 示例数据
data = {
'Name Entry 1': ['John', '', 'Jane', 'Peter', 'Alice'],
'Name Entry 2': ['Doe', 'Smith', '', 'Jones', ''],
'Name Entry 3': ['Jr.', '', 'Sr.', '', 'Cooper'] # 假设有更多列
}
names_df_apply = pd.DataFrame(data)
def determine_surname(row):
"""
根据行数据中的'Name Entry 1'和'Name Entry 2'来确定姓氏。
可以根据需要添加更多条件。
"""
if row['Name Entry 1'] != '' and row['Name Entry 2'] == '':
return 'MISSING'
elif row['Name Entry 1'] == '' and row['Name Entry 2'] == '' and row['Name Entry 3'] != '':
# 示例:如果前两项都空,但第三项不空,则使用第三项
return row['Name Entry 3']
else:
# 默认情况下使用Name Entry 2的值
return row['Name Entry 2']
names_df_apply['Surname_apply'] = names_df_apply.apply(determine_surname, axis=1)
print("\n使用apply和自定义函数的结果:")
print(names_df_apply)优点:
- 可读性强: 将复杂的逻辑封装在独立的函数中,使代码结构清晰,易于理解。
- 易于维护和扩展: 当需要添加或修改条件时,只需修改自定义函数内部的逻辑,而无需改动apply调用部分。
- 灵活性高: 函数内部可以执行任何Python操作,包括调用其他函数、进行复杂的计算等。
- 调试方便: 可以单独测试自定义函数,便于定位问题。
缺点:
- 性能开销: 相较于完全向量化的操作(如Pandas内置函数或NumPy函数),apply方法在Python层面逐行迭代,通常效率较低,尤其是在处理大型DataFrame时。
4. 总结与选择建议
在Pandas中根据多列条件生成新列时,选择合适的方法至关重要:
- 对于简单、直接的条件判断,且条件数量较少,使用zip结合列表推导式是一个简洁高效的选择。
- 对于复杂、多分支的条件逻辑,或者需要更强的可读性和可维护性时,优先考虑使用df.apply()方法结合自定义函数。虽然可能存在一定的性能开销,但对于大多数非极端性能要求的场景,其带来的代码质量提升是值得的。
此外,值得一提的是,Pandas和NumPy提供了许多向量化操作(如pd.Series.where(), np.select(), df.loc结合布尔索引等),它们在处理特定类型的条件逻辑时,通常能提供最佳的性能。例如,如果只有简单的if/else逻辑,np.where通常是最高效的:
import numpy as np
# 简单if/else的np.where示例
names_df['Surname_np_where'] = np.where(
(names_df['Name Entry 1'] != '') & (names_df['Name Entry 2'] == ''),
'MISSING',
names_df['Name Entry 2']
)
print("\n使用np.where的结果:")
print(names_df)然而,当条件变得非常复杂,涉及多个独立或嵌套的elif时,apply方法往往在可读性和维护性上优于尝试用多个np.where或np.select堆叠。
综合来看,理解并掌握列表推导式、apply方法以及向量化操作的特点,能够帮助你更灵活、高效地处理Pandas数据。
今天带大家了解了的相关知识,希望对你有所帮助;关于文章的技术知识我们会一点点深入介绍,欢迎大家关注golang学习网公众号,一起学习编程~
迅雷APP怎么用?手机功能详解
- 上一篇
- 迅雷APP怎么用?手机功能详解
- 下一篇
- 中国移动销户号码恢复方法详解
-
- 文章 · python教程 | 9分钟前 |
- VSCodePython开发全流程详解
- 348浏览 收藏
-
- 文章 · python教程 | 13分钟前 | 模块 包 代码复用 import Python函数模块化
- Python函数模块化技巧与实践解析
- 391浏览 收藏
-
- 文章 · python教程 | 27分钟前 | Flask web开发
- Flask框架入门教程:Web开发实战指南
- 324浏览 收藏
-
- 文章 · python教程 | 42分钟前 |
- Mako模板使用方法与实例详解
- 292浏览 收藏
-
- 文章 · python教程 | 47分钟前 |
- Pythonpdb调试方法详解
- 109浏览 收藏
-
- 文章 · python教程 | 55分钟前 |
- Pyodide集成BasthonTurtle教程与SVG渲染详解
- 447浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Pythontkinter添加控件技巧分享
- 148浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- KBar快捷键注册失败怎么解决
- 392浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python多目录导入技巧与实战解析
- 423浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 543次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 516次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 500次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 485次学习
-
- ChatExcel酷表
- ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
- 3176次使用
-
- Any绘本
- 探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
- 3388次使用
-
- 可赞AI
- 可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
- 3417次使用
-
- 星月写作
- 星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
- 4522次使用
-
- MagicLight
- MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
- 3796次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览

