Python数据清洗技巧:pandas预处理详解
知识点掌握了,还需要不断练习才能熟练运用。下面golang学习网给大家带来一个文章开发实战,手把手教大家学习《Python数据清洗技巧:pandas预处理全攻略》,在实现功能的过程中也带大家重新温习相关知识点,温故而知新,回头看看说不定又有不一样的感悟!
缺失值处理:识别缺失值常用df.isnull().sum()或df.isna().any(),填充可用固定值、均值、中位数、前后向填充等方法,若缺失比例小或无保留价值可直接删除;2. 重复值处理:使用df.duplicated()识别重复行,df.drop_duplicates()删除重复记录,默认保留首次出现;3. 数据类型转换:用astype()进行类型转换,pd.to_datetime()和pd.to_numeric()分别用于日期和数值型字符串转换;4. 字符串/文本数据清洗:通过str.lower()、str.strip()、str.replace()等方法统一大小写、去除空格、替换字符;5. 异常值处理:识别可用Z-score或IQR法,结合箱线图等可视化工具,处理方式包括删除、替换、转换或不处理,具体取决于业务背景和模型需求。
Python进行数据清洗,核心利器无疑是pandas库。它提供了一整套高效的数据结构和功能,帮助我们处理数据中常见的缺失、重复、格式不一、异常等问题,说白了,就是把那些“脏兮兮”的数据变得干净、规整,能真正为后续分析所用。

解决方案
要说Python里怎么搞定数据清洗,pandas绝对是绕不开的话题。它提供了DataFrame这种表格型数据结构,操作起来跟Excel或者数据库表的感觉有点像,但效率和灵活性高得多。我通常会从以下几个方面入手:

1. 缺失值处理: 这是最常见的痛点。数据总会有“空洞”。
- 识别:
df.isnull().sum()
能很快告诉你每列有多少缺失值,或者df.isna().any()
看看有没有缺失。 - 填充:
- 用某个固定值填充:
df['column'].fillna(0, inplace=True)
- 用均值、中位数填充:
df['column'].fillna(df['column'].mean(), inplace=True)
。这种方法挺常用,但得看数据分布,偏态分布时中位数可能更好。 - 前向/后向填充:
df['column'].fillna(method='ffill', inplace=True)
或method='bfill'
。这个在时间序列数据里特别好用,能保持数据的连续性。
- 用某个固定值填充:
- 删除: 如果缺失值占比很小,或者某些行/列的缺失值太多以至于没有保留价值,直接删除是简单粗暴但有效的方法。
- 删除含有任何缺失值的行:
df.dropna(inplace=True)
- 删除含有所有缺失值的列:
df.dropna(axis=1, how='all', inplace=True)
- 删除含有任何缺失值的行:
import pandas as pd import numpy as np # 示例数据 data = {'A': [1, 2, np.nan, 4, 5], 'B': [np.nan, 2, 3, 4, np.nan], 'C': ['apple', 'banana', 'orange', np.nan, 'grape']} df = pd.DataFrame(data) print("原始数据:\n", df) # 检查缺失值 print("\n缺失值统计:\n", df.isnull().sum()) # 填充缺失值 (以列'A'为例,用中位数填充) df['A'].fillna(df['A'].median(), inplace=True) # 填充缺失值 (以列'B'为例,前向填充) df['B'].fillna(method='ffill', inplace=True) # 删除列'C'中的缺失值行 df.dropna(subset=['C'], inplace=True) print("\n处理缺失值后的数据:\n", df)
2. 重复值处理: 数据录入或合并时,很容易出现重复记录。

- 识别:
df.duplicated()
会返回一个布尔序列,指示哪些行是重复的。 - 删除:
df.drop_duplicates(inplace=True)
可以删除所有重复行,默认保留第一次出现的。如果想保留最后一次出现的,可以设置keep='last'
。
data_dup = {'ID': [1, 2, 2, 3, 4, 4], 'Value': ['A', 'B', 'B', 'C', 'D', 'D']} df_dup = pd.DataFrame(data_dup) print("\n原始重复数据:\n", df_dup) print("\n重复行识别:\n", df_dup.duplicated()) df_dup.drop_duplicates(inplace=True) print("\n删除重复行后的数据:\n", df_dup)
3. 数据类型转换: 数据导入后,有时列的数据类型不是我们想要的,比如数字被识别成了字符串。
df['column'].astype(int)
或df['column'].astype(float)
- 日期时间字符串转日期时间对象:
pd.to_datetime(df['date_column'])
- 数值型字符串转数值:
pd.to_numeric(df['num_column'], errors='coerce')
。errors='coerce'
很重要,它可以把无法转换的值变成NaN
,避免程序崩溃。
df_type = pd.DataFrame({'num_str': ['10', '20', '30a', '40'], 'date_str': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04']}) print("\n原始数据类型:\n", df_type.dtypes) df_type['num_str'] = pd.to_numeric(df_type['num_str'], errors='coerce') df_type['date_str'] = pd.to_datetime(df_type['date_str']) print("\n转换数据类型后的数据:\n", df_type.dtypes) print("转换后的数据:\n", df_type)
4. 字符串/文本数据清洗: 文本数据往往最“脏”,大小写不一、多余空格、特殊字符等等。
df['text_column'].str.lower()
/.upper()
统一大小写df['text_column'].str.strip()
去除首尾空格df['text_column'].str.replace('old', 'new')
替换特定字符串df['text_column'].str.contains('keyword')
检查是否包含某个关键词- 正则表达式匹配:
df['text_column'].str.extract(r'(\d+)')
df_text = pd.DataFrame({'product': [' Apple ', 'banana_ ', 'Orange!', 'Grape']}) print("\n原始文本数据:\n", df_text) df_text['product'] = df_text['product'].str.strip().str.lower().str.replace('!', '') print("\n清洗后的文本数据:\n", df_text)
5. 异常值处理: 这块比较复杂,异常值不一定都是“错”的,有时它们本身就很有意义。
- 识别:
- 统计方法: Z-score(如果数据近似正态分布),IQR(四分位距)法。
- 可视化: 箱线图(
df.boxplot()
)能直观显示异常点,散点图也能帮助发现。
- 处理:
- 删除: 最简单,但可能丢失有用信息。
- 替换: 用均值、中位数或上下限值替换。
- 不处理: 如果异常值有业务意义,或者模型对异常值不敏感(比如决策树),有时就保留它。
# IQR 方法识别异常值 Q1 = df['A'].quantile(0.25) Q3 = df['A'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # 假设我们在'A'列引入一个异常值 df.loc[0, 'A'] = 100 # 故意制造一个异常值 print("\n含异常值的数据:\n", df) outliers = df[(df['A'] < lower_bound) | (df['A'] > upper_bound)] print("\n识别到的异常值:\n", outliers) # 处理异常值 (这里简单地用中位数替换) # df.loc[(df['A'] < lower_bound) | (df['A'] > upper_bound), 'A'] = df['A'].median() # print("\n处理异常值后的数据:\n", df)
为什么数据清洗是数据分析的关键一步?
说实话,很多人在拿到数据的时候,第一反应可能就是赶紧跑模型、出结果。但往往忽略了最基础也是最重要的一步——数据清洗。在我看来,数据清洗不仅仅是一个技术操作,它更像是一场侦探游戏,你得仔细审视每一个数据点,理解它的来龙去脉。
如果数据是脏的,比如有大量的缺失值、错误的数据类型、重复的记录,甚至是明显的异常值,那么你后续做的任何分析、构建的任何模型,都可能像建立在沙滩上的城堡,经不起推敲。用一句老话讲就是“Garbage In, Garbage Out”(垃圾进,垃圾出)。你喂给模型垃圾数据,它自然也只能吐出垃圾结果。
数据清洗能确保我们分析的可靠性。想象一下,你用包含了重复用户的数据去计算用户活跃度,结果肯定会虚高;或者用包含了错误编码的商品数据去分析销售趋势,那得到的结论多半是误导性的。清洗过程本身也是一个深入理解数据的过程,你会发现数据中隐藏的问题,甚至能从中发现一些有趣的模式或潜在的业务漏洞。所以,它不是可有可无的“体力活”,而是提升数据价值的基石。
处理缺失值时,选择填充还是删除?
这是一个经典问题,没有一劳永逸的答案,更多的是一种权衡和取舍。我个人在做决策时,通常会考虑几个关键点:
删除缺失值:
- 优点: 简单直接,能保证数据的完整性,避免引入人为偏差。
- 缺点:
- 信息丢失: 如果缺失值很多,删除会导致大量数据丢失,减少样本量,可能影响统计分析的效力。
- 引入偏差: 如果缺失不是随机的(比如高收入人群更倾向于不填某个敏感信息),那么删除这些行可能会导致剩余数据无法代表整体,从而引入选择性偏差。
- 适用场景: 当缺失值占比非常小(比如低于5%),且缺失是完全随机的(MCAR),或者该行/列的缺失值多到几乎没有用处时。
填充缺失值(Imputation):
- 优点: 保留了更多的样本数据,避免了信息丢失。
- 缺点:
- 引入偏差: 填充值是估计出来的,不是真实值,可能会降低数据的真实性,甚至扭曲变量间的关系。
- 增加复杂性: 需要选择合适的填充方法,不同的方法可能带来不同的影响。
- 常见填充方法及考量:
- 均值/中位数/众数填充: 简单易行,但会降低数据的方差,且不适用于非数值型数据。中位数对异常值更鲁棒。
- 前向/后向填充: 在时间序列或有序数据中非常有用,假设缺失值与前后值相关。
- 模型预测填充: 比如用K-NN、回归模型等预测缺失值。这种方法更复杂,但理论上更准确,因为它考虑了变量间的关系。不过,这本身也引入了模型误差。
- 适用场景: 当缺失值占比较大,或者我们认为缺失值可以通过其他已知信息合理推断时。
最终的选择,往往是根据缺失值在数据集中的分布、缺失的模式(是随机缺失、条件缺失还是非随机缺失)、数据的业务含义以及后续分析或模型的具体需求来决定的。有时候,甚至可以尝试多种方法,然后通过交叉验证或模型表现来评估哪种处理方式更优。没有银弹,只有最适合当前场景的方案。
如何有效地识别和处理异常值?
识别和处理异常值,这事儿比缺失值和重复值更让人头疼,因为“异常”这个词本身就带着主观色彩。一个值是异常,可能是数据录入错误,也可能是真实世界里一个非常罕见的事件。所以,在动手之前,我总会先问自己:这个“异常”到底意味着什么?
识别异常值的方法:
统计方法:
- Z-score(Z分数): 如果数据大致服从正态分布,Z-score能衡量一个数据点偏离均值的标准差倍数。通常,Z-score绝对值大于2或3的点会被认为是异常值。
from scipy.stats import zscore df['zscore_A'] = np.abs(zscore(df['A'].dropna())) # 对非缺失值计算 # 找出 Z-score 超过阈值的行 # outliers_z = df[df['zscore_A'] > 3]
- IQR(四分位距)法: 这是我个人更常用且觉得更稳健的方法,因为它不受极端值影响。它定义了数据中间50%的范围。
- 计算第一四分位数(Q1)和第三四分位数(Q3)。
- IQR = Q3 - Q1。
- 异常值通常定义为小于
Q1 - 1.5 * IQR
或大于Q3 + 1.5 * IQR
的值。Q1 = df['A'].quantile(0.25) Q3 = df['A'].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # outliers_iqr = df[(df['A'] < lower_bound) | (df['A'] > upper_bound)]
- Z-score(Z分数): 如果数据大致服从正态分布,Z-score能衡量一个数据点偏离均值的标准差倍数。通常,Z-score绝对值大于2或3的点会被认为是异常值。
可视化方法:
- 箱线图(Box Plot):
df.boxplot()
简直是识别异常值的利器。它能直观地展示数据的分布、中位数、四分位数,以及超出“胡须”范围的离群点(通常就是IQR方法识别的异常值)。 - 散点图(Scatter Plot): 对于两个变量的关系,散点图能帮助我们发现那些明显偏离整体趋势的点。
- 直方图/密度图: 观察数据分布,如果某个区域的值非常稀疏或突然出现孤立的峰值,可能就是异常。
- 箱线图(Box Plot):
业务知识: 这才是最最关键的。一个统计上看起来“异常”的值,在业务逻辑上可能完全合理。比如,一个电商平台某天销售额突然暴涨,可能是因为“双十一”大促,而不是数据错误。脱离业务背景谈异常值处理,往往会犯大错。
处理异常值的方法:
删除:
- 最简单粗暴,直接把含有异常值的行或列删掉。
- 风险: 丢失信息,尤其当异常值本身带有重要信息时;如果异常值很多,可能导致样本量过小。
- 适用: 确认是数据录入错误,且数量极少,对整体分析影响不大。
替换(Winsorization/Capping):
- 用某个阈值(比如IQR的上下边界)替换异常值,或者用均值、中位数替换。
- 优点: 保留了样本量,减少了极端值对统计量的影响。
- 缺点: 可能会扭曲数据的原始分布,引入人为偏差。
- 示例:
# 将超出上限的异常值替换为上限值 df.loc[df['A'] > upper_bound, 'A'] = upper_bound # 将低于下限的异常值替换为下限值 df.loc[df['A'] < lower_bound, 'A'] = lower_bound
转换:
- 对数转换、平方根转换等。这些转换可以使数据分布更接近正态,从而减少极端值的影响。
- 适用: 当数据高度偏态时。
分箱/离散化:
- 将连续的数值型变量划分到不同的区间,异常值自然会落入某个区间。
- 适用: 如果异常值的具体数值不重要,而它所属的“极端”类别更重要。
不处理:
- 有时异常值本身就是研究对象,比如欺诈检测、故障诊断。
- 有些模型(如决策树、随机森林)对异常值不那么敏感,甚至能很好地利用它们。
- 重要: 必须在充分理解数据和业务的基础上,才能做出不处理的决定。
处理异常值是一个迭代的过程,可能需要尝试多种方法,并结合业务专家的意见。重要的是要记住,处理异常值的目的不是为了让数据看起来“完美”,而是为了让数据更好地服务于我们的分析目标。
好了,本文到此结束,带大家了解了《Python数据清洗技巧:pandas预处理详解》,希望本文对你有所帮助!关注golang学习网公众号,给大家分享更多文章知识!

- 上一篇
- Java颜色填充方法及区域填充实现

- 下一篇
- Python定时任务怎么实现?
-
- 文章 · python教程 | 1小时前 |
- Python中datetime处理时间日期方法详解
- 324浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python中%s是什么意思?字符串格式化详解
- 168浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python项目结构规划指南
- 272浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python构建知识图谱:Neo4j实战教程
- 374浏览 收藏
-
- 文章 · python教程 | 1小时前 |
- Python操作Neo4j:py2neo图数据库入门指南
- 339浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python并行计算技巧与方法解析
- 269浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python工厂模式怎么实现?
- 138浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- PyCharm解释器功能全解析
- 243浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- Python正则表达式调试技巧大全
- 305浏览 收藏
-
- 文章 · python教程 | 2小时前 |
- numpy是什么?Python数值计算库详解
- 302浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- Python异常检测:IsolationForest算法解析
- 272浏览 收藏
-
- 文章 · python教程 | 3小时前 |
- PythonOpenCV图像识别教程详解
- 269浏览 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 508次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 484次学习
-
- 免费AI认证证书
- 科大讯飞AI大学堂推出免费大模型工程师认证,助力您掌握AI技能,提升职场竞争力。体系化学习,实战项目,权威认证,助您成为企业级大模型应用人才。
- 32次使用
-
- 茅茅虫AIGC检测
- 茅茅虫AIGC检测,湖南茅茅虫科技有限公司倾力打造,运用NLP技术精准识别AI生成文本,提供论文、专著等学术文本的AIGC检测服务。支持多种格式,生成可视化报告,保障您的学术诚信和内容质量。
- 161次使用
-
- 赛林匹克平台(Challympics)
- 探索赛林匹克平台Challympics,一个聚焦人工智能、算力算法、量子计算等前沿技术的赛事聚合平台。连接产学研用,助力科技创新与产业升级。
- 220次使用
-
- 笔格AIPPT
- SEO 笔格AIPPT是135编辑器推出的AI智能PPT制作平台,依托DeepSeek大模型,实现智能大纲生成、一键PPT生成、AI文字优化、图像生成等功能。免费试用,提升PPT制作效率,适用于商务演示、教育培训等多种场景。
- 181次使用
-
- 稿定PPT
- 告别PPT制作难题!稿定PPT提供海量模板、AI智能生成、在线协作,助您轻松制作专业演示文稿。职场办公、教育学习、企业服务全覆盖,降本增效,释放创意!
- 169次使用
-
- Flask框架安装技巧:让你的开发更高效
- 2024-01-03 501浏览
-
- Django框架中的并发处理技巧
- 2024-01-22 501浏览
-
- 提升Python包下载速度的方法——正确配置pip的国内源
- 2024-01-17 501浏览
-
- Python与C++:哪个编程语言更适合初学者?
- 2024-03-25 501浏览
-
- 品牌建设技巧
- 2024-04-06 501浏览