当前位置:首页 > 文章列表 > 文章 > python教程 > Pandas多条件筛选技巧与查询方法

Pandas多条件筛选技巧与查询方法

2025-08-05 22:39:57 0浏览 收藏

怎么入门文章编程?需要学习哪些知识点?这是新手们刚接触编程时常见的问题;下面golang学习网就来给大家整理分享一些知识点,希望能够给初学者一些帮助。本篇文章就来介绍《Pandas多条件筛选技巧与高级查询方法》,涉及到,有需要的可以收藏一下

在Pandas中实现多条件数据筛选的核心方法是使用布尔索引结合位运算符。1. 使用括号包裹每个独立条件表达式,以避免运算符优先级问题;2. 使用&表示“与”、|表示“或”、~表示“非”,进行逐元素逻辑运算;3. 高级方法包括isin()筛选值列表、between()筛选范围、字符串方法匹配模式、isnull()/notnull()处理缺失值、query()实现类SQL语法查询;4. 复杂条件可通过定义布尔Series变量、封装筛选函数、链式操作提升可读性和维护性。这些方法共同构建高效、清晰的数据筛选逻辑。

Pandas中怎样实现多条件数据筛选?高级查询方法

在Pandas中实现多条件数据筛选,核心在于利用布尔索引(Boolean Indexing)结合逻辑运算符。这就像给数据戴上一个“筛子”,只有满足所有或部分特定条件的数据点才能透过。最直接、也是最常用的方法,就是把每个条件写成一个布尔序列,然后用&(与)、|(或)、~(非)这些位运算符将它们组合起来。

Pandas中怎样实现多条件数据筛选?高级查询方法

在Pandas中进行多条件数据筛选,其实就是构建一个复杂的布尔掩码。我们通常会把每一个筛选条件写成一个独立的布尔Series,然后用括号将它们包裹起来,再通过&(逻辑与)、|(逻辑或)、~(逻辑非)这些位运算符进行组合。

例如,假设我们有一个DataFrame df,想要筛选出'年龄'大于30且'城市'是'北京'的记录,代码会是这样:

Pandas中怎样实现多条件数据筛选?高级查询方法
import pandas as pd

# 示例数据
data = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '年龄': [25, 32, 30, 35, 28],
    '城市': ['上海', '北京', '广州', '北京', '上海'],
    '收入': [5000, 8000, 6000, 9000, 7000]
}
df = pd.DataFrame(data)

# 多条件筛选:年龄大于30 且 城市是北京
filtered_df = df[(df['年龄'] > 30) & (df['城市'] == '北京')]
print("筛选结果:")
print(filtered_df)

# 如果是“或”的关系,比如年龄大于30 或 城市是上海
# filtered_df_or = df[(df['年龄'] > 30) | (df['城市'] == '上海')]
# print("\n年龄大于30 或 城市是上海:")
# print(filtered_df_or)

# 组合多个条件,比如年龄大于30 且 城市是北京 且 收入大于8500
# filtered_df_complex = df[(df['年龄'] > 30) & (df['城市'] == '北京') & (df['收入'] > 8500)]
# print("\n年龄大于30 且 城市是北京 且 收入大于8500:")
# print(filtered_df_complex)

这里的关键点在于:

  1. 括号:每个独立的条件表达式必须用括号括起来,这是因为&|的运算符优先级高于比较运算符(如>==)。不加括号会导致语法错误或非预期的结果。
  2. 位运算符:使用&表示“与”(AND),|表示“或”(OR),~表示“非”(NOT)。它们是针对Series中的每个元素进行逻辑运算的,与Python原生的andor(用于布尔值的短路评估)不同。

为什么直接使用and或or会报错?理解Pandas布尔索引的底层逻辑

这是一个新手常遇到的坑。当我们尝试写df[df['年龄'] > 30 and df['城市'] == '北京']时,Python会抛出一个ValueError: The truth value of a Series is ambiguous.之类的错误。这并不是Pandas的bug,而是对Python语言特性和Pandas内部机制理解不够深入造成的。

Pandas中怎样实现多条件数据筛选?高级查询方法

Python原生的andor操作符,是设计来处理单个布尔值(True或False)的。它们会尝试将操作数转换为布尔值,并进行短路评估。例如,True and False会返回False。但当你的操作数是Pandas的Series时,问题就来了。一个Series,比如df['年龄'] > 30,它返回的不是一个单一的True或False,而是一个由多个True/False组成的Series(一个布尔向量)。Python不知道该如何把整个Series“浓缩”成一个单一的布尔值来执行andor。是所有都为True才算True?还是只要有一个True就算True?这种“模糊性”就是报错的原因。

Pandas为了解决这个问题,提供了&|~这些位运算符。它们被重载(overload)了,可以对Series进行“逐元素”的布尔运算。当df['年龄'] > 30返回[False, True, False, True, False],而df['城市'] == '北京'返回[False, True, False, True, False]时,&会逐个元素进行逻辑与运算: False & False -> FalseTrue & True -> TrueFalse & False -> FalseTrue & True -> TrueFalse & False -> False 最终得到一个全新的布尔Series [False, True, False, True, False],这个布尔Series就是我们用来筛选DataFrame的“掩码”。只有掩码中对应位置为True的行才会被保留下来。这就是Pandas布尔索引的底层逻辑:用一个与DataFrame行数相同、包含布尔值的Series作为索引,来选择对应的行。

除了基础的与或非,还有哪些高级筛选技巧?提升数据查询效率

除了直接使用&|~,Pandas还提供了一些更高级、有时更便捷或更高效的筛选方法,尤其在处理特定类型的数据时:

  1. isin()方法:当你需要筛选某个列的值是否在给定的一组值中时,isin()非常有用。

    # 筛选城市是'北京'或'上海'的记录
    filtered_cities_df = df[df['城市'].isin(['北京', '上海'])]
    print("\n城市是北京或上海的记录:")
    print(filtered_cities_df)

    这比写df[(df['城市'] == '北京') | (df['城市'] == '上海')]要简洁得多,尤其当值列表很长时。

  2. between()方法:用于数值列的范围筛选,它包含起始和结束值。

    # 筛选年龄在28到32之间的记录(包含28和32)
    filtered_age_range_df = df[df['年龄'].between(28, 32)]
    print("\n年龄在28到32之间的记录:")
    print(filtered_age_range_df)

    这比df[(df['年龄'] >= 28) & (df['年龄'] <= 32)]更清晰。

  3. 字符串方法 (str.contains(), str.startswith(), str.endswith(), str.match()):对于字符串列的模式匹配筛选。

    # 筛选姓名中包含'三'的记录
    filtered_name_contains_df = df[df['姓名'].str.contains('三')]
    print("\n姓名中包含'三'的记录:")
    print(filtered_name_contains_df)
    
    # 筛选城市以'上'开头的记录
    # filtered_city_start_df = df[df['城市'].str.startswith('上')]
    # print("\n城市以'上'开头的记录:")
    # print(filtered_city_start_df)

    这些方法在处理文本数据时非常强大,str.contains()甚至支持正则表达式。

  4. isnull() / notnull():用于筛选或排除缺失值(NaN)。

    # 假设我们让一个收入变成NaN
    df_with_nan = df.copy()
    df_with_nan.loc[0, '收入'] = None # 或者 pd.NA, np.nan
    
    # 筛选收入不为空的记录
    filtered_not_null_income = df_with_nan[df_with_nan['收入'].notnull()]
    print("\n收入不为空的记录:")
    print(filtered_not_null_income)
  5. query()方法:对于更复杂的、基于字符串的查询,query()提供了一种SQL-like的语法,可读性更高。

    # 使用query方法筛选:年龄大于30 且 城市是北京
    filtered_query_df = df.query("年龄 > 30 and 城市 == '北京'")
    print("\n使用query方法筛选:")
    print(filtered_query_df)
    
    # query也支持变量,前面加@符号
    # min_age = 30
    # target_city = '北京'
    # filtered_query_with_var = df.query("年龄 > @min_age and 城市 == @target_city")
    # print("\n使用query方法带变量筛选:")
    # print(filtered_query_with_var)

    query()在某些情况下(尤其是大型数据集)可能在性能上有所优化,因为它内部可能会利用NumExpr库进行评估。它的主要优势在于可读性和将条件作为字符串传递的灵活性。

如何处理复杂的多条件组合,避免代码混乱?构建可维护的筛选逻辑

当筛选条件变得越来越复杂时,一行很长的布尔表达式会变得难以阅读和维护。这时,我们需要一些策略来保持代码的清晰和健壮。

  1. 将每个条件定义为独立的布尔Series变量:这是最直接也最有效的方法。把每个独立的条件表达式赋值给一个有意义的变量名,然后像拼积木一样组合它们。

    # 定义各个条件
    is_adult = df['年龄'] > 30
    is_from_beijing = df['城市'] == '北京'
    has_high_income = df['收入'] >= 8000
    
    # 组合条件
    complex_filtered_df = df[is_adult & is_from_beijing & has_high_income]
    print("\n通过变量组合的复杂筛选:")
    print(complex_filtered_df)

    这种方式极大地提升了可读性,每个变量名本身就解释了它代表的筛选逻辑。当需要修改某个条件时,也只需修改对应的变量定义,而无需在长表达式中查找。

  2. 使用函数封装重复的筛选逻辑:如果你的应用程序中有很多地方需要执行相似但参数不同的筛选,可以考虑将其封装成一个函数。

    def filter_by_criteria(dataframe, min_age=None, city=None, min_income=None):
        conditions = []
        if min_age is not None:
            conditions.append(dataframe['年龄'] > min_age)
        if city is not None:
            conditions.append(dataframe['城市'] == city)
        if min_income is not None:
            conditions.append(dataframe['收入'] >= min_income)
    
        if not conditions:
            return dataframe # 没有条件,返回原DataFrame
    
        # 使用reduce和&来组合所有条件,或者手动循环
        # from functools import reduce
        # combined_condition = reduce(lambda x, y: x & y, conditions)
    
        # 简单循环组合
        combined_condition = conditions[0]
        for i in range(1, len(conditions)):
            combined_condition = combined_condition & conditions[i]
    
        return dataframe[combined_condition]
    
    # 使用函数进行筛选
    result1 = filter_by_criteria(df, min_age=30, city='北京')
    print("\n通过函数筛选 (年龄>30, 城市=北京):")
    print(result1)
    
    result2 = filter_by_criteria(df, min_income=7500)
    print("\n通过函数筛选 (收入>=7500):")
    print(result2)

    这种函数化的方式,使得筛选逻辑更具通用性和复用性,特别适合构建数据查询API或模块。

  3. 链式操作与pipe():对于一系列连续的数据处理步骤,包括筛选,可以考虑使用方法链。pipe()方法在需要将DataFrame传递给一个函数时特别有用,它允许你保持链式操作的流畅性。虽然它本身不直接用于多条件筛选,但可以用于组织包含筛选步骤的复杂数据流。

    # 结合pipe(),虽然这里例子不复杂,但展示其潜力
    # 假设我们有一个更复杂的流程:筛选 -> 计算新列 -> 再次筛选
    def add_tax(df_in):
        df_in['税后收入'] = df_in['收入'] * 0.9
        return df_in
    
    final_df = (df
                .pipe(add_tax) # 先计算税后收入
                .query("年龄 > 30 and 税后收入 >= 7000")) # 再基于新列筛选
    print("\n使用pipe和query的链式操作:")
    print(final_df)

    这鼓励一种声明式的编程风格,让数据转换的步骤一目了然。

总的来说,处理Pandas中的多条件筛选,从基础的布尔索引到高级的query()和函数封装,选择哪种方式取决于条件的复杂性、代码的可读性需求以及项目的维护策略。清晰的命名和模块化的思考,永远是写出高质量数据处理代码的关键。

到这里,我们也就讲完了《Pandas多条件筛选技巧与查询方法》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于Pandas,位运算符,布尔索引,多条件筛选,query()的知识点!

Redis性能优化配置全攻略Redis性能优化配置全攻略
上一篇
Redis性能优化配置全攻略
Golang微服务RPC重试实现与策略详解
下一篇
Golang微服务RPC重试实现与策略详解
查看更多
最新文章
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    542次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    511次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    498次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    484次学习
查看更多
AI推荐
  • 千音漫语:智能声音创作助手,AI配音、音视频翻译一站搞定!
    千音漫语
    千音漫语,北京熠声科技倾力打造的智能声音创作助手,提供AI配音、音视频翻译、语音识别、声音克隆等强大功能,助力有声书制作、视频创作、教育培训等领域,官网:https://qianyin123.com
    116次使用
  • MiniWork:智能高效AI工具平台,一站式工作学习效率解决方案
    MiniWork
    MiniWork是一款智能高效的AI工具平台,专为提升工作与学习效率而设计。整合文本处理、图像生成、营销策划及运营管理等多元AI工具,提供精准智能解决方案,让复杂工作简单高效。
    111次使用
  • NoCode (nocode.cn):零代码构建应用、网站、管理系统,降低开发门槛
    NoCode
    NoCode (nocode.cn)是领先的无代码开发平台,通过拖放、AI对话等简单操作,助您快速创建各类应用、网站与管理系统。无需编程知识,轻松实现个人生活、商业经营、企业管理多场景需求,大幅降低开发门槛,高效低成本。
    128次使用
  • 达医智影:阿里巴巴达摩院医疗AI影像早筛平台,CT一扫多筛癌症急慢病
    达医智影
    达医智影,阿里巴巴达摩院医疗AI创新力作。全球率先利用平扫CT实现“一扫多筛”,仅一次CT扫描即可高效识别多种癌症、急症及慢病,为疾病早期发现提供智能、精准的AI影像早筛解决方案。
    120次使用
  • 智慧芽Eureka:更懂技术创新的AI Agent平台,助力研发效率飞跃
    智慧芽Eureka
    智慧芽Eureka,专为技术创新打造的AI Agent平台。深度理解专利、研发、生物医药、材料、科创等复杂场景,通过专家级AI Agent精准执行任务,智能化工作流解放70%生产力,让您专注核心创新。
    124次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码