当前位置：首页 > 文章列表 > 文章 > python教程 > Python数据科学入门：Pandas与NumPy教程

Python数据科学入门：Pandas与NumPy教程

2025-09-04 12:56:01 0浏览收藏

想入门Python数据科学？本文为你提供NumPy与Pandas的**基础教程**，助你快速掌握数据分析核心技能。NumPy作为高性能数值计算库，奠定数据分析的性能基础，其N维数组和向量化计算能力，让数据处理更高效。Pandas则构建于NumPy之上，提供强大的DataFrame和Series数据结构，简化数据清洗、转换与分析流程。两者结合，NumPy负责底层计算，Pandas实现高层操作，广泛应用于数据预处理、聚合、筛选等任务。本文还将深入探讨NumPy如何通过内存优化和C语言实现提升计算效率，以及Pandas DataFrame如何凭借其强大的数据选择、过滤和分组功能，成为数据分析的利器。掌握NumPy和Pandas，你就能高效完成从基础数据处理到复杂数据分析的全流程。

Python数据科学分析的核心是掌握NumPy和Pandas。NumPy提供高效的N维数组和向量化计算，奠定性能基础；Pandas在此之上构建DataFrame和Series，实现数据清洗、转换、分析的高效操作。两者协同工作，NumPy负责底层数值计算，Pandas提供高层数据结构与操作，广泛应用于数据预处理、聚合、筛选等任务。实际应用中需注意数据类型、广播规则、性能优化及内存管理，避免apply()等低效操作，理解SettingWithCopyWarning等机制。通过结合二者优势，可高效完成从基础处理到复杂分析的全流程。

如何使用Python进行数据科学分析（Pandas, NumPy基础）？

Python进行数据科学分析，核心在于掌握Pandas和NumPy这两个库。它们就像是数据处理领域的左右手：NumPy提供了高效的数值计算能力和基础的数据结构，是所有高级操作的基石；而Pandas则在此之上构建，以其强大的DataFrame和Series对象，极大地简化了数据清洗、处理、转换和分析的整个流程，让复杂的数据操作变得直观且高效。

解决方案

要真正上手使用Python进行数据科学分析，我们需要从NumPy和Pandas的基础操作开始。这不仅仅是学习语法，更是理解它们背后处理数据的方式。

首先，确保你的环境中安装了这两个库。通常，一个简单的pip install pandas numpy就能搞定。

NumPy：数组与向量化计算

NumPy（Numerical Python）是Python科学计算的核心库，它引入了N维数组对象（ndarray），并提供了大量用于处理这些数组的函数。在我看来，NumPy的魅力在于其对性能的极致追求，它将许多操作下放到C语言层面，使得大规模数值计算速度惊人。

import numpy as np

# 创建NumPy数组
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print("一维数组:", arr1)
print("二维数组:\n", arr2)

# 基本运算，这是NumPy最强大的地方——向量化操作
# 数组与标量运算
print("数组+5:", arr1 + 5)
# 数组与数组运算（对应元素相加）
arr3 = np.array([10, 20, 30, 40, 50])
print("数组相加:", arr1 + arr3)

# 形状操作
print("arr2的形状:", arr2.shape)
arr2_reshaped = arr2.reshape(3, 2)
print("arr2重塑后:\n", arr2_reshaped)

# 索引与切片
print("arr1的第二个元素:", arr1[1])
print("arr2的第一行:", arr2[0, :]) # 或者 arr2[0]
print("arr2的第二列:", arr2[:, 1])

NumPy的向量化操作意味着你不需要写显式的循环来对数组中的每个元素进行操作，这不仅代码更简洁，效率也更高。

Pandas：数据框与结构化数据

Pandas是建立在NumPy之上的一个库，它提供了两种核心数据结构：Series（一维带标签数组）和DataFrame（二维带标签表格）。对我来说，DataFrame简直是数据分析师的“瑞士军刀”，它把我们习惯的电子表格或数据库表的概念带到了Python中，而且功能强大到超乎想象。

import pandas as pd

# 创建Series
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print("Series:\n", s)

# 创建DataFrame
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '年龄': [25, 30, 28, 35],
    '城市': ['北京', '上海', '广州', '深圳'],
    '分数': [85, 92, 78, 95]
}
df = pd.DataFrame(data)
print("\nDataFrame:\n", df)

# 查看数据概览
print("\nDataFrame头部:\n", df.head(2))
print("\nDataFrame信息:\n")
df.info()
print("\nDataFrame统计描述:\n", df.describe())

# 选择列
print("\n选择'姓名'列:\n", df['姓名'])
print("\n选择多列:\n", df[['姓名', '年龄']])

# 选择行（通过标签.loc或位置.iloc）
print("\n选择第一行（通过位置）:\n", df.iloc[0])
print("\n选择索引为1和3的行:\n", df.iloc[[1, 3]])

# 条件筛选
print("\n年龄大于30的数据:\n", df[df['年龄'] > 30])

# 添加新列
df['是否及格'] = df['分数'] >= 60
print("\n添加'是否及格'列后:\n", df)

# 数据排序
print("\n按年龄降序排序:\n", df.sort_values(by='年龄', ascending=False))

# 处理缺失值（示例，这里没有缺失值）
# df_with_nan = df.copy()
# df_with_nan.loc[0, '分数'] = np.nan
# print("\n含有缺失值的DataFrame:\n", df_with_nan)
# print("\n缺失值数量:\n", df_with_nan.isnull().sum())
# print("\n删除缺失值行:\n", df_with_nan.dropna())
# print("\n填充缺失值:\n", df_with_nan.fillna(0))

# 聚合操作
print("\n按城市分组，计算平均分数:\n", df.groupby('城市')['分数'].mean())

通过这些基础操作，我们已经能对数据进行初步的探索、清洗和转换。实际工作中，数据往往是脏乱的，Pandas的这些功能是数据预处理阶段不可或缺的利器。

NumPy如何为高效数据处理奠定基础？

在我看来，NumPy在数据处理中的核心地位，主要源于其对N维数组对象（ndarray）的引入和向量化操作的强大支持。设想一下，如果你有一百万个数字需要同时乘以2，用Python原生的列表和循环，你会发现速度慢得让人抓狂。但NumPy的ndarray就能在毫秒级别完成这项任务。

这背后有几个关键原因：

内存效率与数据连续性： NumPy数组在内存中是连续存储的，这意味着CPU在访问数据时效率极高，避免了Python对象在内存中散乱分布带来的开销。这种紧凑的存储方式也大大减少了内存占用。
C语言实现： NumPy的底层是用C和Fortran等编译型语言实现的。当你在Python中调用NumPy函数时，实际上是调用了高度优化的底层代码。这就像你把一个复杂的计算任务外包给了一个超级快的专业团队。
向量化操作： 这是NumPy的标志性特征。你可以直接对整个数组执行数学运算，而不需要显式地编写for循环。例如，arr + 5 会将数组arr中的每个元素都加上5，arr1 * arr2 会执行对应元素的乘法。这种操作方式不仅代码更简洁易读，更重要的是，它避免了Python解释器的循环开销，效率呈几何级数提升。

让我们看一个简单的例子，对比一下Python列表和NumPy数组的性能差异：

import time

list_data = list(range(1, 1000001)) # 100万个数字
numpy_data = np.arange(1, 1000001)

# 使用Python列表进行操作
start_time = time.time()
result_list = [x * 2 for x in list_data]
end_time = time.time()
print(f"Python列表操作耗时: {end_time - start_time:.4f} 秒")

# 使用NumPy数组进行操作
start_time = time.time()
result_numpy = numpy_data * 2
end_time = time.time()
print(f"NumPy数组操作耗时: {end_time - start_time:.4f} 秒")

运行这段代码，你会发现NumPy的速度优势是压倒性的。这种效率提升，对于处理大型数据集时至关重要。可以说，没有NumPy，Pandas的强大功能也无从谈起，因为Pandas的DataFrame内部就是基于NumPy数组构建的。NumPy为Python在科学计算领域取得今天的地位，奠定了坚实的基础。

Pandas DataFrame：数据分析的瑞士军刀？

如果说NumPy是数据处理的“发动机”，那么Pandas DataFrame就是“整车”，它把数据组织得井井有条，并提供了各种方便的工具。我个人觉得，称DataFrame为“数据分析的瑞士军刀”一点也不为过，因为它几乎涵盖了数据分析过程中所有可能遇到的基本操作。

DataFrame最核心的优势在于它提供了一个带标签的二维表格结构，这与我们日常接触的Excel表格、SQL数据库表非常相似。它有行索引（index）和列名（columns），可以存储不同类型的数据（整数、浮点数、字符串、布尔值等），并且能方便地进行各种操作：

直观的数据表示： 数据以表格形式呈现，一目了然。你可以通过列名直接访问数据，也可以通过行索引进行定位。
强大的数据选择与过滤： loc和iloc让基于标签或位置的选择变得异常灵活。结合布尔条件，你可以轻松地筛选出符合特定条件的数据子集，这在数据探索和清洗时非常有用。
数据清洗与预处理： DataFrame提供了丰富的函数来处理缺失值（isnull(), dropna(), fillna()）、重复值（drop_duplicates()）、数据类型转换（astype()）等。这些功能极大地减少了手动处理数据的繁琐程度。
数据聚合与分组： groupby()方法是Pandas的明星功能之一。它可以让你根据一个或多个列对数据进行分组，然后对每个组应用聚合函数（如mean(), sum(), count(), median()等），快速得到汇总统计信息。这在理解数据模式、进行探索性分析时非常关键。
数据合并与连接： 多个DataFrame可以通过merge(), join(), concat()等操作进行合并，这对于从不同来源整合数据非常实用，就像数据库中的JOIN操作一样。
时间序列功能： Pandas对时间序列数据有原生支持，可以方便地进行日期时间索引、重采样、移动窗口计算等操作，这在金融、物联网等领域非常重要。

举个例子，假设我们有一个销售数据DataFrame，我们想看看每个产品的平均销售额，并找出销售额最高的城市。

data_sales = {
    '产品': ['A', 'B', 'A', 'C', 'B', 'A', 'C'],
    '城市': ['北京', '上海', '广州', '北京', '深圳', '上海', '广州'],
    '销售额': [120, 150, 130, 90, 200, 110, 80],
    '销量': [10, 15, 12, 8, 20, 11, 7]
}
df_sales = pd.DataFrame(data_sales)
print("原始销售数据:\n", df_sales)

# 按产品分组，计算平均销售额
avg_sales_by_product = df_sales.groupby('产品')['销售额'].mean()
print("\n按产品分组的平均销售额:\n", avg_sales_by_product)

# 按城市分组，计算总销售额，并找到销售额最高的城市
total_sales_by_city = df_sales.groupby('城市')['销售额'].sum()
print("\n按城市分组的总销售额:\n", total_sales_by_city)
highest_sales_city = total_sales_by_city.idxmax()
print(f"\n销售额最高的城市是: {highest_sales_city}，总销售额为: {total_sales_by_city.max()}")

通过几行简洁的代码，我们就完成了复杂的聚合和分析。这种效率和直观性，正是Pandas DataFrame成为数据分析领域不可或缺工具的原因。它不仅提供了强大的功能，更重要的是，它以一种非常“Pythonic”的方式，让数据处理和分析变得更加愉快和高效。

从实战案例看Pandas与NumPy的协作与挑战

在实际的数据科学项目中，Pandas和NumPy并非独立存在，它们是紧密协作的。Pandas的DataFrame和Series对象内部实际上是基于NumPy数组构建的，这意味着你可以在Pandas对象上直接应用NumPy的函数，或者将Pandas对象转换为NumPy数组进行更底层的数值计算。这种无缝集成是它们强大力量的来源。

考虑一个场景：我们有一个包含用户体征数据（身高、体重）的DataFrame，需要计算每个用户的BMI（身体质量指数），并识别出BMI异常的用户。BMI的计算公式是：体重（公斤）/ 身高（米）的平方。

# 假设数据是厘米和公斤
user_data = {
    '用户ID': [1, 2, 3, 4, 5],
    '身高_cm': [175, 160, 180, 165, 170],
    '体重_kg': [70, 55, 90, 60, 65]
}
df_users = pd.DataFrame(user_data)
print("原始用户数据:\n", df_users)

# 步骤1: 将身高从厘米转换为米 (Pandas操作)
df_users['身高_m'] = df_users['身高_cm'] / 100

# 步骤2: 计算BMI (NumPy与Pandas协作)
# 这里直接在Pandas Series上进行NumPy风格的向量化操作
df_users['BMI'] = df_users['体重_kg'] / (df_users['身高_m'] ** 2)

# 步骤3: 根据BMI判断健康状况 (Pandas条件筛选)
# 假设BMI < 18.5 为偏瘦，18.5-24.9 为正常，>= 25 为超重
def classify_bmi(bmi):
    if bmi < 18.5:
        return '偏瘦'
    elif 18.5 <= bmi < 25:
        return '正常'
    else:
        return '超重'

# 使用apply方法，对BMI列的每个元素应用自定义函数
# 注意：对于大型数据集，尽量避免使用apply，优先使用向量化操作
df_users['健康状况'] = df_users['BMI'].apply(classify_bmi)

print("\n计算BMI及健康状况后的用户数据:\n", df_users)

在这个例子中，df_users['身高_cm'] / 100和df_users['体重_kg'] / (df_users['身高_m'] ** 2)都是Pandas Series上的向量化操作，但它们底层依赖NumPy的广播和高效数值计算。** 2操作也是NumPy提供的。

然而，这种协作也伴随着一些挑战，特别是对于初学者：

理解数据类型： Pandas会尽力推断列的数据类型，但有时需要手动调整（df['col'].astype(int)）。NumPy的数组要求所有元素类型一致，理解这一点对于避免意外行为很重要。
广播规则（Broadcasting）： NumPy的广播机制非常强大，允许不同形状的数组进行运算，但其规则有时会让人困惑。比如，一个一维数组如何与一个二维数组相加，这需要一些练习才能掌握。
性能陷阱：apply()与向量化。虽然df.apply()非常灵活，可以处理各种自定义逻辑，但它本质上是在Python层面进行循环，效率远低于NumPy或Pandas内置的向量化函数。在处理大数据时，应尽可能寻找替代的向量化方法（如条件筛选、np.where()、map()等）。
SettingWithCopyWarning： 这是Pandas中一个常见的警告，通常在你尝试修改一个DataFrame的“视图”而不是“副本”时出现。不理解它可能导致数据修改不生效或产生意外结果。正确的做法通常是使用.loc进行链式索引，或者明确地创建副本。
内存管理： 对于非常大的数据集，即使NumPy和Pandas效率很高，也可能遇到内存不足的问题。这时就需要考虑分块处理、使用更高效的数据类型（如int8代替int64）、或者使用Dask等工具进行并行计算。