当前位置:首页 > 文章列表 > 文章 > python教程 > Python如何删除重复项 subset参数详解

Python如何删除重复项 subset参数详解

2026-05-23 11:17:41 0浏览 收藏
本文深入解析了Pandas中drop_duplicates方法的核心参数subset——它并非接受位置索引或正则表达式,而是严格要求传入列名字符串或字符串列表,用于精准定义“按哪些列的组合值判断重复”,其余列完全不参与去重逻辑;文章不仅厘清了单列与多列去重的正确写法、常见报错根源(如列名拼写错误、NaN被默认视为不等导致漏删),还揭示了keep参数的真实作用边界、缺失值处理的隐蔽陷阱、数据类型对性能的显著影响,以及如何结合业务语义校验subset是否真正反映“逻辑重复”,堪称一份兼顾原理、避坑与实战优化的高价值指南。

Python如何基于特定列删除重复项_配置drop_duplicates的subset参数

drop_duplicates的subset参数到底填什么

填列名字符串或字符串列表,不是索引、不是位置序号、不是正则。传入subset的本质是告诉 Pandas:“只看这几列的组合值是否重复”,其余列不影响去重逻辑。

常见错误:传subset=0(误当位置索引)、subset=['col1', 'col2']却拼错列名(触发KeyError: "['xxx'] not in index")、或用subset='col1'但该列是数值型而实际想按字符串内容比——这些都会直接报错或结果异常。

  • 单列去重:用subset='col_name'subset=['col_name'](二者等价)
  • 多列联合去重:必须用列表,如subset=['user_id', 'event_time']
  • 列名含空格或特殊字符?必须原样匹配,建议先用df.columns.tolist()确认真实名称

keep参数和subset一起用时的行为细节

keep决定保留哪一行重复记录,默认'first',但它只在subset定义的列组合相同时才生效。换句话说:两行在指定列上完全一致,才进入“留第一/留最后/全删”的判断;只要有一列不同,就根本不算重复。

容易被忽略的点:如果subset漏掉关键列(比如只选'email'却忽略'source'),可能导致本该区分的账号被合并;反之若多加一列(比如加了'updated_at'这个高精度时间戳),可能让所有行都“不重复”,导致去重失效。

  • keep='first':保留每组重复中的第一行(按原始顺序)
  • keep='last':保留每组重复中的最后一行
  • keep=False:整组都删掉,不留任何一行
  • 注意:keep不改变原df顺序,只是筛选;如需排序后去重,先sort_valuesdrop_duplicates

处理缺失值(NaN)时subset的坑

Pandas 默认把 NaN 视为“彼此不相等”,所以subset=['col_a']中,两行都是NaN,不会被识别为重复——这是最常踩的隐性坑。

比如清洗用户表,用subset=['phone']去重,结果多个空手机号用户全被留下。这不是 bug,是设计行为。

  • 想把 NaN 当作相同值处理?得先填充,例如df['phone'].fillna('MISSING')再运行drop_duplicates
  • 或者用subset配合df.drop_duplicates(subset=['col_a'], keep='first', ignore_index=True),但ignore_index只是重置索引,不解决 NaN 比较问题
  • 更稳妥的做法:显式过滤 + 分组,例如df[~df.duplicated(subset=['col_a'], keep=False) | df['col_a'].notna()]——但这已超出subset本身能力范围

性能提示:subset列的数据类型和重复率影响很大

如果subset里有 object 类型列(尤其是长文本),Pandas 内部哈希开销会明显上升;而 datetime 或数值列则快得多。另外,重复率越高,drop_duplicates越快(因为早期就能剪枝);低重复率+大数据量时,考虑是否真需要内存内去重,还是该下推到数据库或用dask

  • 提速技巧:对高频去重列提前转成 category 类型,如df['status'] = df['status'].astype('category')
  • 避免临时列干扰:不要在subset里混入刚用apply生成的列,除非确认过其 dtype 和唯一性
  • 调试时加print(df.duplicated(subset=['x','y']).sum()),先看重复数再执行删除
实际用的时候,别光盯着subset写对没,得同步检查那几列的缺失值表现、数据类型、以及业务上“重复”的定义是否真能被这几列准确刻画。

本篇关于《Python如何删除重复项 subset参数详解》的介绍就到此结束啦,但是学无止境,想要了解学习更多关于文章的相关知识,请关注golang学习网公众号!

Win10/Win11开启卓越性能模式方法Win10/Win11开启卓越性能模式方法
上一篇
Win10/Win11开启卓越性能模式方法
身份证发票识别,千问表格Agent高效录入Excel
下一篇
身份证发票识别,千问表格Agent高效录入Excel
查看更多
最新文章
资料下载
查看更多
课程推荐
  • 前端进阶之JavaScript设计模式
    前端进阶之JavaScript设计模式
    设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
    543次学习
  • GO语言核心编程课程
    GO语言核心编程课程
    本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
    516次学习
  • 简单聊聊mysql8与网络通信
    简单聊聊mysql8与网络通信
    如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
    500次学习
  • JavaScript正则表达式基础与实战
    JavaScript正则表达式基础与实战
    在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
    487次学习
  • 从零制作响应式网站—Grid布局
    从零制作响应式网站—Grid布局
    本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
    485次学习
查看更多
AI推荐
  • ChatExcel酷表:告别Excel难题,北大团队AI助手助您轻松处理数据
    ChatExcel酷表
    ChatExcel酷表是由北京大学团队打造的Excel聊天机器人,用自然语言操控表格,简化数据处理,告别繁琐操作,提升工作效率!适用于学生、上班族及政府人员。
    4833次使用
  • Any绘本:开源免费AI绘本创作工具深度解析
    Any绘本
    探索Any绘本(anypicturebook.com/zh),一款开源免费的AI绘本创作工具,基于Google Gemini与Flux AI模型,让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景,零门槛,高自由度,技术透明,本地可控。
    5189次使用
  • 可赞AI:AI驱动办公可视化智能工具,一键高效生成文档图表脑图
    可赞AI
    可赞AI,AI驱动的办公可视化智能工具,助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析,还是一键生成专业图表、脑图、知识卡片,可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景,大幅提升办公效率,降低专业门槛,是您提升工作效率的得力助手。
    5066次使用
  • 星月写作:AI网文创作神器,助力爆款小说速成
    星月写作
    星月写作是国内首款聚焦中文网络小说创作的AI辅助工具,解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配,助力新人快速上手,资深作者效率倍增。
    7018次使用
  • MagicLight.ai:叙事驱动AI动画视频创作平台 | 高效生成专业级故事动画
    MagicLight
    MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台,专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型,保障角色、风格、场景高度一致性,让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销,助您轻松实现创意落地与商业化。
    5425次使用
微信登录更方便
  • 密码登录
  • 注册账号
登录即同意 用户协议隐私政策
返回登录
  • 重置密码