当前位置：首页 > 文章列表 > 文章 > python教程 > Python缺失值处理方法详解

Python缺失值处理方法详解

2025-12-27 11:40:35 0浏览收藏

学习文章要努力，但是不要急！今天的这篇文章《Python缺失值处理：填充、删除与预测方法》将会介绍到等等知识点，如果你想深入学习文章，可以关注我！我会持续更新相关文章的，希望对大家都能有所帮助！

缺失值判断应使用 pd.isna()，它能统一识别 None、np.nan 和 pd.NA；删除用 dropna() 时需注意 subset 参数；数值填充优先选 SimpleImputer(strategy='median')；预测填充仅适用于高相关特征；非随机缺失（MNAR）宜转为二值特征。

Python缺失值处理策略_填充删除与预测方法【指导】

缺失值判断要用 `pd.isna()`，别用 `== None` 或 `is None`

Python 中 None、np.nan、pd.NA 都可能表示缺失，但它们行为不同。== None 对 np.nan 永远返回 False，is None 在 pandas Series 中多数情况下也不可靠。唯一通用且安全的判断方式是 pd.isna()（它同时识别 np.nan、None、pd.NA）。

df['col'].isna() 返回布尔 Series，可直接用于筛选或统计
df.isna().sum() 快速查看每列缺失数量
注意：pd.notna() 是反向操作，等价于 ~df.isna()

删除缺失行用 `dropna()`，但默认只删全为 NaN 的行

dropna() 默认参数是 how='any' 且 axis=0，但很多人误以为它会删掉「任意含缺失的行」——其实它确实会，但前提是没指定 subset。真正容易出错的是：当只想删某几列有缺失的行时，必须显式传 subset，否则其他列的缺失会被忽略。

删掉 'age' 或 'income' 中任一列为空的整行：df.dropna(subset=['age', 'income'])
只删「所有列都为空」的行：df.dropna(how='all')
删列（不常用）：df.dropna(axis=1, how='all') —— 删全为 NaN 的列
⚠️ 注意：inplace=True 不推荐，易掩盖原始数据状态；优先用赋值：df = df.dropna(...)

数值型填充优先用 `SimpleImputer(strategy='median')`，不是均值

均值对异常值极度敏感，而中位数鲁棒性强得多。pandas 的 fillna() 虽方便，但无法跨训练/测试集一致应用（比如用训练集的中位数去填测试集），工程部署时容易出错。sklearn 的 SimpleImputer 支持 fit() + transform() 流程，确保数据一致性。

from sklearn.impute import SimpleImputer
import numpy as np

imp = SimpleImputer(strategy='median')
X_train_imputed = imp.fit_transform(X_train.select_dtypes(include=[np.number]))
X_test_imputed = imp.transform(X_test.select_dtypes(include=[np.number]))

strategy='most_frequent' 适用于离散型数值（如编码后的类别）
strategy='constant' 填固定值（如 -999），需配合后续模型处理逻辑
分类变量别用 SimpleImputer 填均值/中位数——类型不匹配会报错

预测填充（KNN / IterativeImputer）只在特征强相关时才有效

KNN 填充和 IterativeImputer 本质是建模：用其他列预测缺失列。如果变量间线性/非线性关系弱，预测结果反而比中位数更差，还大幅拖慢速度。实测中，超过 50 列且缺失率 >15% 时，IterativeImputer 训练时间可能增长 10 倍以上，且结果不稳定。

小规模、高相关数据可用：from sklearn.impute import KNNImputer，n_neighbors=5 通常够用
IterativeImputer 默认用 BayesianRidge，但换成 DecisionTreeRegressor 有时更鲁棒（尤其含离散特征时）
⚠️ 绝对不要在未标准化的数据上用 KNN —— 量纲差异会导致距离失真

缺失机制本身比方法选择更重要：若缺失不是随机（MNAR），比如“收入越低，越不愿填写”，那任何插补都会引入系统性偏差。这种时候，与其强行填，不如把「是否缺失」转为二值特征参与建模。

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于文章的相关知识，也可关注golang学习网公众号。