Pandas多条件筛选技巧与查询方法
怎么入门文章编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《Pandas多条件筛选技巧与高级查询方法》,涉及到,有需要的可以收藏一下
在Pandas中实现多条件数据筛选的核心方法是使用布尔索引结合位运算符。1. 使用括号包裹每个独立条件表达式,以避免运算符优先级问题;2. 使用&表示“与”、|表示“或”、~表示“非”,进行逐元素逻辑运算;3. 高级方法包括isin()筛选值列表、between()筛选范围、字符串方法匹配模式、isnull()/notnull()处理缺失值、query()实现类SQL语法查询;4. 复杂条件可通过定义布尔Series变量、封装筛选函数、链式操作提升可读性和维护性。这些方法共同构建高效、清晰的数据筛选逻辑。
在Pandas中实现多条件数据筛选,核心在于利用布尔索引(Boolean Indexing)结合逻辑运算符。这就像给数据戴上一个“筛子”,只有满足所有或部分特定条件的数据点才能透过。最直接、也是最常用的方法,就是把每个条件写成一个布尔序列,然后用&
(与)、|
(或)、~
(非)这些位运算符将它们组合起来。

在Pandas中进行多条件数据筛选,其实就是构建一个复杂的布尔掩码。我们通常会把每一个筛选条件写成一个独立的布尔Series,然后用括号将它们包裹起来,再通过&
(逻辑与)、|
(逻辑或)、~
(逻辑非)这些位运算符进行组合。
例如,假设我们有一个DataFrame df
,想要筛选出'年龄'
大于30且'城市'
是'北京'的记录,代码会是这样:

import pandas as pd # 示例数据 data = { '姓名': ['张三', '李四', '王五', '赵六', '钱七'], '年龄': [25, 32, 30, 35, 28], '城市': ['上海', '北京', '广州', '北京', '上海'], '收入': [5000, 8000, 6000, 9000, 7000] } df = pd.DataFrame(data) # 多条件筛选:年龄大于30 且 城市是北京 filtered_df = df[(df['年龄'] > 30) & (df['城市'] == '北京')] print("筛选结果:") print(filtered_df) # 如果是“或”的关系,比如年龄大于30 或 城市是上海 # filtered_df_or = df[(df['年龄'] > 30) | (df['城市'] == '上海')] # print("\n年龄大于30 或 城市是上海:") # print(filtered_df_or) # 组合多个条件,比如年龄大于30 且 城市是北京 且 收入大于8500 # filtered_df_complex = df[(df['年龄'] > 30) & (df['城市'] == '北京') & (df['收入'] > 8500)] # print("\n年龄大于30 且 城市是北京 且 收入大于8500:") # print(filtered_df_complex)
这里的关键点在于:
- 括号:每个独立的条件表达式必须用括号括起来,这是因为
&
和|
的运算符优先级高于比较运算符(如>
、==
)。不加括号会导致语法错误或非预期的结果。 - 位运算符:使用
&
表示“与”(AND),|
表示“或”(OR),~
表示“非”(NOT)。它们是针对Series中的每个元素进行逻辑运算的,与Python原生的and
、or
(用于布尔值的短路评估)不同。
为什么直接使用and或or会报错?理解Pandas布尔索引的底层逻辑
这是一个新手常遇到的坑。当我们尝试写df[df['年龄'] > 30 and df['城市'] == '北京']
时,Python会抛出一个ValueError: The truth value of a Series is ambiguous.
之类的错误。这并不是Pandas的bug,而是对Python语言特性和Pandas内部机制理解不够深入造成的。

Python原生的and
和or
操作符,是设计来处理单个布尔值(True或False)的。它们会尝试将操作数转换为布尔值,并进行短路评估。例如,True and False
会返回False
。但当你的操作数是Pandas的Series时,问题就来了。一个Series,比如df['年龄'] > 30
,它返回的不是一个单一的True或False,而是一个由多个True/False组成的Series(一个布尔向量)。Python不知道该如何把整个Series“浓缩”成一个单一的布尔值来执行and
或or
。是所有都为True才算True?还是只要有一个True就算True?这种“模糊性”就是报错的原因。
Pandas为了解决这个问题,提供了&
、|
、~
这些位运算符。它们被重载(overload)了,可以对Series进行“逐元素”的布尔运算。当df['年龄'] > 30
返回[False, True, False, True, False]
,而df['城市'] == '北京'
返回[False, True, False, True, False]
时,&
会逐个元素进行逻辑与运算:
False & False
-> False
True & True
-> True
False & False
-> False
True & True
-> True
False & False
-> False
最终得到一个全新的布尔Series [False, True, False, True, False]
,这个布尔Series就是我们用来筛选DataFrame的“掩码”。只有掩码中对应位置为True
的行才会被保留下来。这就是Pandas布尔索引的底层逻辑:用一个与DataFrame行数相同、包含布尔值的Series作为索引,来选择对应的行。
除了基础的与或非,还有哪些高级筛选技巧?提升数据查询效率
除了直接使用&
、|
、~
,Pandas还提供了一些更高级、有时更便捷或更高效的筛选方法,尤其在处理特定类型的数据时:
isin()
方法:当你需要筛选某个列的值是否在给定的一组值中时,isin()
非常有用。# 筛选城市是'北京'或'上海'的记录 filtered_cities_df = df[df['城市'].isin(['北京', '上海'])] print("\n城市是北京或上海的记录:") print(filtered_cities_df)
这比写
df[(df['城市'] == '北京') | (df['城市'] == '上海')]
要简洁得多,尤其当值列表很长时。between()
方法:用于数值列的范围筛选,它包含起始和结束值。# 筛选年龄在28到32之间的记录(包含28和32) filtered_age_range_df = df[df['年龄'].between(28, 32)] print("\n年龄在28到32之间的记录:") print(filtered_age_range_df)
这比
df[(df['年龄'] >= 28) & (df['年龄'] <= 32)]
更清晰。字符串方法 (
str.contains()
,str.startswith()
,str.endswith()
,str.match()
):对于字符串列的模式匹配筛选。# 筛选姓名中包含'三'的记录 filtered_name_contains_df = df[df['姓名'].str.contains('三')] print("\n姓名中包含'三'的记录:") print(filtered_name_contains_df) # 筛选城市以'上'开头的记录 # filtered_city_start_df = df[df['城市'].str.startswith('上')] # print("\n城市以'上'开头的记录:") # print(filtered_city_start_df)
这些方法在处理文本数据时非常强大,
str.contains()
甚至支持正则表达式。isnull()
/notnull()
:用于筛选或排除缺失值(NaN)。# 假设我们让一个收入变成NaN df_with_nan = df.copy() df_with_nan.loc[0, '收入'] = None # 或者 pd.NA, np.nan # 筛选收入不为空的记录 filtered_not_null_income = df_with_nan[df_with_nan['收入'].notnull()] print("\n收入不为空的记录:") print(filtered_not_null_income)
query()
方法:对于更复杂的、基于字符串的查询,query()
提供了一种SQL-like的语法,可读性更高。# 使用query方法筛选:年龄大于30 且 城市是北京 filtered_query_df = df.query("年龄 > 30 and 城市 == '北京'") print("\n使用query方法筛选:") print(filtered_query_df) # query也支持变量,前面加@符号 # min_age = 30 # target_city = '北京' # filtered_query_with_var = df.query("年龄 > @min_age and 城市 == @target_city") # print("\n使用query方法带变量筛选:") # print(filtered_query_with_var)
query()
在某些情况下(尤其是大型数据集)可能在性能上有所优化,因为它内部可能会利用NumExpr库进行评估。它的主要优势在于可读性和将条件作为字符串传递的灵活性。
如何处理复杂的多条件组合,避免代码混乱?构建可维护的筛选逻辑
当筛选条件变得越来越复杂时,一行很长的布尔表达式会变得难以阅读和维护。这时,我们需要一些策略来保持代码的清晰和健壮。
将每个条件定义为独立的布尔Series变量:这是最直接也最有效的方法。把每个独立的条件表达式赋值给一个有意义的变量名,然后像拼积木一样组合它们。
# 定义各个条件 is_adult = df['年龄'] > 30 is_from_beijing = df['城市'] == '北京' has_high_income = df['收入'] >= 8000 # 组合条件 complex_filtered_df = df[is_adult & is_from_beijing & has_high_income] print("\n通过变量组合的复杂筛选:") print(complex_filtered_df)
这种方式极大地提升了可读性,每个变量名本身就解释了它代表的筛选逻辑。当需要修改某个条件时,也只需修改对应的变量定义,而无需在长表达式中查找。
使用函数封装重复的筛选逻辑:如果你的应用程序中有很多地方需要执行相似但参数不同的筛选,可以考虑将其封装成一个函数。
def filter_by_criteria(dataframe, min_age=None, city=None, min_income=None): conditions = [] if min_age is not None: conditions.append(dataframe['年龄'] > min_age) if city is not None: conditions.append(dataframe['城市'] == city) if min_income is not None: conditions.append(dataframe['收入'] >= min_income) if not conditions: return dataframe # 没有条件,返回原DataFrame # 使用reduce和&来组合所有条件,或者手动循环 # from functools import reduce # combined_condition = reduce(lambda x, y: x & y, conditions) # 简单循环组合 combined_condition = conditions[0] for i in range(1, len(conditions)): combined_condition = combined_condition & conditions[i] return dataframe[combined_condition] # 使用函数进行筛选 result1 = filter_by_criteria(df, min_age=30, city='北京') print("\n通过函数筛选 (年龄>30, 城市=北京):") print(result1) result2 = filter_by_criteria(df, min_income=7500) print("\n通过函数筛选 (收入>=7500):") print(result2)
这种函数化的方式,使得筛选逻辑更具通用性和复用性,特别适合构建数据查询API或模块。
链式操作与
pipe()
:对于一系列连续的数据处理步骤,包括筛选,可以考虑使用方法链。pipe()
方法在需要将DataFrame传递给一个函数时特别有用,它允许你保持链式操作的流畅性。虽然它本身不直接用于多条件筛选,但可以用于组织包含筛选步骤的复杂数据流。# 结合pipe(),虽然这里例子不复杂,但展示其潜力 # 假设我们有一个更复杂的流程:筛选 -> 计算新列 -> 再次筛选 def add_tax(df_in): df_in['税后收入'] = df_in['收入'] * 0.9 return df_in final_df = (df .pipe(add_tax) # 先计算税后收入 .query("年龄 > 30 and 税后收入 >= 7000")) # 再基于新列筛选 print("\n使用pipe和query的链式操作:") print(final_df)
这鼓励一种声明式的编程风格,让数据转换的步骤一目了然。
总的来说,处理Pandas中的多条件筛选,从基础的布尔索引到高级的query()
和函数封装,选择哪种方式取决于条件的复杂性、代码的可读性需求以及项目的维护策略。清晰的命名和模块化的思考,永远是写出高质量数据处理代码的关键。
到这里,我们也就讲完了《Pandas多条件筛选技巧与查询方法》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于Pandas,位运算符,布尔索引,多条件筛选,query()的知识点!

- 上一篇
- Redis性能优化配置全攻略

- 下一篇
- Golang微服务RPC重试实现与策略详解
-
- 文章 · python教程 | 3小时前 |
- Pipenv安装后PATH配置解决方法
- 282浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python分页实现与性能优化技巧
- 212浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python跨目录导入模块技巧分享
- 132浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Pythonset()函数使用详解
- 347浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python文本相似度:TF-IDF与余弦匹配详解
- 118浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- Python操作SQLite入门指南
- 130浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- 手写数字分类器np.argmax报错解决办法
- 313浏览 收藏
-
- 文章 · python教程 | 4小时前 |
- PyCharm图形显示问题解决方法汇总
- 268浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 511次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 498次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 千音漫语
- 千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
- 116次使用
-
- MiniWork
- MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
- 111次使用
-
- NoCode
- NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
- 128次使用
-
- 达医智影
- 达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
- 120次使用
-
- 智慧芽Eureka
- 智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
- 124次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览