当前位置：首页 > 文章列表 > 文章 > python教程 > Python做EDA步骤详解：数据分析入门指南

Python做EDA步骤详解：数据分析入门指南

2025-07-10 17:09:30 0浏览收藏

探索性数据分析（EDA）是数据分析的基石，它通过Python强大的库如Pandas、Matplotlib和Seaborn，帮助我们深入理解数据分布、识别缺失值与异常值，并挖掘潜在的业务洞察。EDA如同数据侦探，利用代码和图表揭示数据背后的秘密，为后续的特征工程和模型选择奠定坚实基础，避免“垃圾进垃圾出”的困境。通过数据导入、清洗、单变量和多变量分析，以及初步的特征工程，我们能够全面了解数据，发现关键模式，并为建模提供有价值的建议。Python EDA的关键在于迭代优化，最终形成对数据的全面理解，为数据科学项目提供清晰的战略规划。

探索性数据分析（EDA）是数据分析的关键第一步，因为它为后续建模提供坚实基础。1. EDA帮助理解数据分布、缺失值和异常值等核心特征；2. 识别并修复数据质量问题，避免“垃圾进垃圾出”；3. 指导特征工程与模型选择，提升分析准确性；4. 建立业务直觉与假设，挖掘潜在洞察。Python中常用库包括：1. Pandas用于数据清洗与操作；2. NumPy提供数值计算支持；3. Matplotlib实现高度定制化绘图；4. Seaborn专注于统计可视化；5. Scikit-learn辅助预处理与特征工程。识别与处理缺失值方法有：1. 使用df.isnull().sum()检查缺失比例；2. 删除或填充缺失值，包括均值、中位数、众数、模型预测等策略。识别与处理异常值方法包括：1. 箱线图、散点图、Z-score与IQR法识别异常；2. 删除、转换、封顶或保留异常值，依据业务背景决策。

如何使用Python进行EDA？探索性数据分析

探索性数据分析（EDA）在数据科学中，对我而言，绝不仅仅是跑几行代码那么简单。它更像是一场与数据的深度对话，一次侦探式的探险。使用Python进行EDA，核心在于利用其强大的库生态，如Pandas进行数据操纵，Matplotlib和Seaborn进行可视化，从而揭示数据背后的故事、发现潜在的问题、验证假设，并最终为后续的建模工作奠定坚实的基础。说白了，就是用代码和图表，把那些藏在数字里的秘密挖出来。

解决方案

进行Python EDA的流程通常是高度迭代且非线性的，但可以概括为以下几个关键步骤，它们之间没有严格的先后顺序，更像是一个不断循环优化的过程：

数据导入与初步审视： 使用Pandas库加载数据（如pd.read_csv()），然后通过.head()、.info()、.describe()、.shape和.isnull().sum()等方法快速了解数据的结构、类型、缺失值情况以及基本统计分布。这就像你拿到一份新文件，先快速翻阅一遍，看看目录和大概内容。
数据清洗与预处理： 处理缺失值（填充、删除）、异常值（识别、处理）、重复值，并确保数据类型正确。这一步至关重要，脏数据会直接影响后续分析的准确性。有时候，你还会在这里进行一些初步的特征工程，比如日期时间列的分解。
单变量分析： 针对每个独立的特征进行分析。对于数值型变量，使用直方图（sns.histplot）、KDE图（sns.kdeplot）、箱线图（sns.boxplot）来观察其分布、偏态、集中趋势和异常值。对于类别型变量，使用计数图（sns.countplot）或饼图来查看各类别占比。
多变量分析： 探索变量之间的关系。
- 数值型 vs 数值型： 散点图（sns.scatterplot）是发现相关性的利器。也可以计算相关系数矩阵（df.corr()）并用热力图（sns.heatmap）可视化。
- 类别型 vs 数值型： 使用箱线图、小提琴图（sns.violinplot）或分组柱状图来比较不同类别下数值变量的分布。
- 类别型 vs 类别型： 交叉表（pd.crosstab）和堆叠柱状图是常用的方法。
特征工程与降维（初步探索）： 虽然特征工程通常是EDA之后的大阶段，但在EDA过程中，我们可能会基于观察到的模式，初步构想或尝试创建新的特征（比如从日期中提取年份、月份），或者对高维数据进行初步的降维尝试（如PCA），以便更好地可视化和理解数据。
结果总结与洞察： 将所有发现进行归纳总结，形成对数据的全面理解。这包括数据质量报告、关键模式的发现、潜在问题的指出以及对后续建模的建议。这部分常常被忽视，但它才是EDA的真正价值所在。

为什么探索性数据分析是数据分析的关键第一步？

对我来说，EDA就像是数据科学项目启动前的“摸底考试”和“战略规划”。它之所以是关键的第一步，在于它能让你在投入大量资源进行复杂建模之前，就对数据有一个“全景式”的认知。

你有没有过这样的经历：满怀信心地构建了一个复杂的模型，结果性能不尽如人意，回过头来才发现数据里有大量的缺失值、异常值，或者变量之间的关系根本不是你最初想象的那样？这就是缺乏EDA的典型后果。EDA能够帮助我们：

理解数据的本质： 它回答了“我的数据长什么样？”这个问题。数据的分布、变量的类型、缺失的模式、异常值的存在，这些都是数据“基因”的一部分。没有这些了解，后续的任何操作都可能是盲人摸象。
识别并修复数据质量问题： 脏数据是模型的毒药。EDA能帮助我们及早发现缺失值、重复值、不一致的格式，甚至是逻辑错误的数据点。提前处理这些问题，能省去后期大量的调试时间。
指导特征工程和模型选择： 通过EDA，你会发现哪些特征可能具有预测能力，哪些特征需要转换，哪些特征是冗余的。例如，如果你发现某个特征的分布严重偏斜，可能会考虑对其进行对数变换。如果你发现两个特征高度相关，可能会考虑只保留一个。这直接影响你选择什么样的模型，以及如何准备模型的输入。
建立业务直觉和假设： EDA不仅仅是技术操作，它更是帮助我们从数据中提炼出业务洞察的过程。通过可视化，你可能会发现一些意想不到的模式，这些模式可能成为你提出新假设、验证业务逻辑的依据。例如，你可能会发现某个产品的销售额在特定月份有显著下降，这可能促使你进一步调查其背后的原因。

简而言之，EDA就是为了避免“垃圾进，垃圾出”的悲剧。它让你在投入资源“建造大厦”之前，先确保“地基”是牢固且清晰的。

Python中进行EDA的常用库有哪些，它们各自的侧重点是什么？

谈到Python进行EDA，我脑海里立刻浮现出几个“明星”库，它们各司其职，共同构成了EDA的强大工具箱。

Pandas：数据操作的瑞士军刀
- 侧重点： 数据加载、清洗、转换、聚合、切片、合并等数据框（DataFrame）层面的操作。它是你与数据交互的基石。
- 我的感受： 离开了Pandas，Python的EDA简直寸步难行。它让数据处理变得如此直观和高效，.groupby(), .pivot_table(), .merge()这些功能简直是数据分析师的福音。
NumPy：数值计算的底层支持
- 侧重点： 提供高性能的多维数组对象（ndarray）和各种数学函数。虽然你可能不直接用它来画图或处理数据框，但Pandas以及许多其他科学计算库的底层都依赖于NumPy。
- 我的感受： 就像是默默无闻的幕后英雄，你可能不直接看到它，但它的存在让整个数据生态系统能够高效运转。
Matplotlib：绘图的基础画布
- 侧重点： 提供了非常灵活和强大的2D绘图功能，你可以精确控制图表的每一个细节，从轴标签到颜色，从线条样式到图例位置。
- 我的感受： Matplotlib有点像素描本，你可以从零开始画出任何你想要的图。虽然有时候会觉得语法有点啰嗦，但它的高度可定制性在需要精细调整图表时显得尤为重要。很多其他高级绘图库也是基于它构建的。
Seaborn：统计可视化的美学大师
- 侧重点： 基于Matplotlib，提供了一个更高层次的API，专注于统计图形的绘制。它内置了漂亮的默认样式，并且能够轻松绘制出复杂的统计图表，如热力图、联合分布图、配对图、小提琴图等。
- 我的感受： 如果说Matplotlib是素描本，那Seaborn就是一套高级的彩色铅笔和模板。它让统计图表变得既美观又富有洞察力，极大地提升了EDA的效率和体验。对于快速探索数据关系，我几乎总是首选Seaborn。
Scikit-learn (部分模块)：预处理与特征工程的辅助
- 侧重点： 虽然主要用于机器学习建模，但其preprocessing模块（如StandardScaler、MinMaxScaler、LabelEncoder）和impute模块（如SimpleImputer）在EDA的数据清洗和初步特征工程阶段也非常有用。
- 我的感受： 在我进行EDA时，有时会顺手用Scikit-learn的预处理工具来规范化数据，为后续建模做准备，这是一种自然的过渡。

这些库协同工作，让Python在EDA领域几乎无所不能。

如何在Python中有效识别并处理数据中的缺失值和异常值？

数据清洗是EDA中最考验耐心和经验的环节之一。缺失值和异常值是数据中常见的“不完美”，处理不好会严重误导分析结果。

识别与处理缺失值

识别： 识别缺失值通常是第一步。Pandas提供了非常直观的方法：

import pandas as pd
import numpy as np

# 假设df是你的DataFrame
# df = pd.read_csv('your_data.csv')

# 检查每列的缺失值数量
print(df.isnull().sum())

# 检查缺失值的总比例
print(df.isnull().sum() / len(df) * 100)

# 可视化缺失值模式（需要安装missingno库：pip install missingno）
import missingno as msno
msno.matrix(df) # 矩阵图
msno.bar(df)    # 条形图

df.isnull().sum()能让你一目了然地看到哪些列有多少缺失值。如果缺失值是随机分布的，missingno.matrix()会显示出白色的小空隙；如果缺失值有特定的模式（比如某一列缺失时另一列也缺失），它会以某种结构呈现。

处理策略： 处理缺失值没有一劳永逸的方法，需要根据数据特性和业务背景来决定。

删除：
- 行删除： df.dropna()。如果某一行有缺失值，就删除整行。
  - 适用场景： 缺失值数量非常少，或者缺失的行对分析影响不大，且删除后不会损失大量数据。
  - 我的看法： 这是最简单粗暴的方法，但要非常谨慎。如果删除过多，可能会丢失宝贵的信息，甚至改变数据的分布。
- 列删除： df.drop(columns=['column_with_many_nans'])。如果某一列缺失值过多（例如超过70-80%），或者该列对分析不重要，可以考虑删除。
  - 适用场景： 列的缺失率极高，或者该列信息价值很低。
填充（Imputation）：
- 均值/中位数/众数填充：
  - 数值型变量：df['column'].fillna(df['column'].mean()) 或 df['column'].fillna(df['column'].median())。
  - 类别型变量：df['column'].fillna(df['column'].mode()[0])。
  - 适用场景： 缺失值数量适中，且假设缺失是随机的（MAR - Missing At Random）。中位数对异常值更鲁棒。
  - 我的看法： 这是最常用的填充方法，但它会降低数据的方差，并可能引入偏差。
- 前向/后向填充： df['column'].fillna(method='ffill') 或 df.fillna(method='bfill')。
  - 适用场景： 时间序列数据，或者数据行之间存在逻辑上的顺序关系。
- 基于模型填充： 使用机器学习模型（如KNNImputer、回归模型）来预测缺失值。
  - 适用场景： 缺失值模式复杂，需要更精确的填充。
  - 我的看法： 这种方法更高级，也更耗时，但通常能提供更准确的填充结果。不过在EDA阶段，我通常会先尝试简单方法。
- 常数填充： df['column'].fillna(0) 或 df['column'].fillna('未知')。
  - 适用场景： 缺失值本身就代表某种特定含义（如0代表没有，'未知'代表无法分类）。

识别与处理异常值

识别： 异常值（Outliers）是数据集中与大多数数据点显著不同的值。识别它们通常需要结合可视化和统计方法。

可视化方法：
- 箱线图（Box Plot）： import seaborn as sns; sns.boxplot(x=df['numerical_column'])。箱线图能直观地显示数据的四分位数和异常值（通常定义为超出1.5倍IQR范围的点）。
- 散点图（Scatter Plot）： sns.scatterplot(x=df['col1'], y=df['col2'])。在多变量分析中，散点图可以帮助你发现那些远离数据群体的点。
- 直方图/KDE图： 极端的偏态分布也可能暗示异常值的存在。
统计方法：
- Z-score（Z分数）： 对于服从正态分布的数据，Z-score衡量一个数据点距离均值有多少个标准差。通常，Z-score绝对值大于2或3的点被认为是异常值。
```
from scipy.stats import zscore
df['zscore_column'] = np.abs(zscore(df['numerical_column']))
outliers = df[df['zscore_column'] > 3]
```
  - 我的看法： Z-score对非正态分布的数据效果不佳，且容易受到极端异常值本身的影响。
- IQR（四分位距）方法： 更加鲁棒，不假设数据服从正态分布。它定义异常值为低于Q1 - 1.5 IQR或高于Q3 + 1.5 IQR的数据点（Q1是第一四分位数，Q3是第三四分位数，IQR = Q3 - Q1）。
```
Q1 = df['numerical_column'].quantile(0.25)
Q3 = df['numerical_column'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers_iqr = df[(df['numerical_column'] < lower_bound) | (df['numerical_column'] > upper_bound)]
```
  - 我的看法： IQR方法是我最常用的方法之一，因为它对偏态数据也相对有效。

处理策略： 处理异常值同样需要小心翼至，因为它们可能是数据录入错误，也可能是真实但罕见的事件（比如欺诈交易、极端天气）。

删除： df = df[(df['column'] >= lower_bound) & (df['column'] <= upper_bound)]。
- 适用场景： 确认异常值是数据录入错误或测量误差，且数量很少，删除不会影响整体数据分布。
- 我的看法： 除非能明确证明是错误数据，否则不轻易删除，因为可能丢失重要信息。
转换：
- 对数变换、平方根变换等： df['column_log'] = np.log(df['column'])。可以减少异常值对模型的影响，使数据分布更接近正态。
  - 适用场景： 数据分布高度偏斜，异常值是真实存在的但数值过大。
- Box-Cox变换： 更通用的变换方法，可以使数据更接近正态分布。
封顶（Capping / Winsorization）： 将异常值替换为某个阈值（如IQR方法的上下界，或第5/95百分位数）。
```
# 示例：将超出上限的异常值替换为上限值
df['numerical_column'] = np.where(df['numerical_column'] > upper_bound, upper_bound, df['numerical_column'])
# 示例：将低于下限的异常值替换为下限值
df['numerical_column'] = np.where(df['numerical_column'] < lower_bound, lower_bound, df['numerical_column'])
```
- 适用场景： 希望保留异常值的信息（即它们是极端值），但又不想让它们对模型产生过大影响。
- 我的看法： 封顶是比较温和且常用的处理方法，它保留了异常值的存在，只是限制了其极端性。
保留：
- 适用场景： 异常值本身就是研究的重点（如欺诈检测、故障诊断），或者它们代表了真实世界的罕见事件，具有重要意义。
- 我的看法： 这是最需要深思熟虑的选项。如果异常值是关键信息，那么模型应该学会处理它们，而不是简单地删除或修改。