当前位置：首页 > 文章列表 > 文章 > python教程 > Pandas数据堆叠与解堆叠技巧解析

Pandas数据堆叠与解堆叠技巧解析

2025-08-07 12:14:16 0浏览收藏

本篇文章主要是结合我之前面试的各种经历和实战开发中遇到的问题解决经验整理的，希望这篇《Pandas数据堆叠与解堆叠方法详解》对你有很大帮助！欢迎收藏，分享给更多的需要的朋友学习~

Pandas中stack()方法的本质是将非索引列标签转换为行索引的一部分。1. stack()默认将所有非索引列名作为最内层新索引级别，生成带有MultiIndex的Series；2. 堆叠时自动丢弃含NaN值的行，可能造成数据丢失；3. 可通过level参数指定堆叠特定列级别，但单级列默认行为最常见。unstack()在场景上特别适用于：1. 从长格式恢复宽格式数据，如将指标类型转为独立列；2. 按分类维度横向比较数据，如不同城市销售额对比；3. 为特定图表准备数据，简化绘图代码。操作时需注意：1. NaN值处理需谨慎，堆叠前应检查或填充缺失；2. 多级索引level参数易错，可能导致结果偏差或KeyError；3. 大数据集下内存和计算效率问题，宽DataFrame可能占用大量资源；4. 数据类型强制转换可能影响数值运算；5. 索引名和列名需重命名以提高可读性。

Pandas中怎样实现数据的堆叠与解堆叠？

在Pandas里，数据的堆叠（stack）和解堆叠（unstack）是两种非常核心的重塑数据的方法，它们能帮助你灵活地在“长格式”和“宽格式”之间转换数据。简单来说，堆叠就是把列“压”成行，通常会生成一个多级索引；而解堆叠则是把索引的某个级别“展开”成新的列。这两种操作在数据清洗、预处理以及为特定分析或可视化工具准备数据时，简直是家常便饭。

解决方案

Pandas中实现数据的堆叠与解堆叠，主要依赖于DataFrame的stack()和unstack()方法。

首先，我们创建一个示例DataFrame：

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    '城市': ['北京', '上海', '广州', '深圳'],
    '年份': [2020, 2020, 2021, 2021],
    '销售额': [100, 120, 90, 110],
    '利润': [20, 25, 18, 22]
}
df = pd.DataFrame(data)
df = df.set_index(['城市', '年份']) # 设置一个多级索引
print("原始DataFrame:")
print(df)

# 堆叠操作 (stack)
# 默认情况下，stack会将最内层的列（这里是'销售额'和'利润'）转换为行，形成新的索引层
stacked_df = df.stack()
print("\n堆叠后的DataFrame (stack):")
print(stacked_df)
print(type(stacked_df)) # 注意，stack默认返回的是一个Series

# 如果想保留为DataFrame，可以指定level，或者在stack后reset_index
# 例如，我们想堆叠'销售额'和'利润'这两列，并让它们成为新的列名，而不是索引的一部分
# 这通常需要先进行melt或者在stack后进行一些操作
# 但最直接的堆叠就是上面那样，将列名变为索引的一部分

# 解堆叠操作 (unstack)
# unstack默认会将最内层的索引级别（这里是'年份'）转换为列
unstacked_df_default = stacked_df.unstack()
print("\n解堆叠后的DataFrame (unstack，默认):")
print(unstacked_df_default)

# 解堆叠指定级别：将'城市'这个索引级别解堆叠为列
unstacked_df_city = df.unstack(level='城市')
print("\n解堆叠后的DataFrame (unstack，指定level='城市'):")
print(unstacked_df_city)

# 解堆叠指定级别：将'年份'这个索引级别解堆叠为列
unstacked_df_year = df.unstack(level='年份')
print("\n解堆叠后的DataFrame (unstack，指定level='年份'):")
print(unstacked_df_year)

Pandas中的堆叠操作（stack）具体是如何工作的？

stack() 方法的本质，是将DataFrame的列标签“旋转”成行索引的一部分。想象一下，你有一张表格，其中有些信息是按列组织的（比如不同产品的销售额、利润），但你更希望它们能作为行里的一个类别来处理。stack() 就是做这个的。

当你不给 stack() 传递任何参数时，它会默认将DataFrame中所有非索引的列名作为最内层的新索引级别。结果通常是一个Series，它的索引会变成一个MultiIndex（多级索引），包含了原始的行索引以及新转换过来的列名。如果原始数据中某个单元格是NaN，那么堆叠后，对应的行通常会被直接丢弃。这个“丢弃NaN”的特性，有时候很方便，因为它能自动帮你清理掉一些不完整的数据点；但有时候也可能导致信息丢失，这得看你的具体需求了。

举个例子，如果你的数据长这样：

城市	年份	销售额	利润
北京	2020	100	20
上海	2020	120	25

经过set_index(['城市', '年份'])后，再stack()，你会得到类似：

城市  年份
北京  2020  销售额    100
            利润      20
上海  2020  销售额    120
            利润      25
dtype: int64

你看，原来的“销售额”和“利润”列，现在成了最内层的索引，这对于后续的数据分组、聚合操作，或者是转换为特定“长格式”数据（很多统计绘图库比如Seaborn就偏爱这种格式）非常有用。如果你想堆叠特定的列，而不是所有列，你可能需要先选择这些列，或者在堆叠后再进行一些重塑。它也可以接受一个level参数，用于指定将哪个级别的列（如果是多级列）堆叠起来，但对于单级列，默认行为是最常见的。

Pandas的解堆叠操作（unstack）在哪些场景下特别有用？

unstack() 是 stack() 的逆操作，它能把DataFrame（或Series）的某个索引级别“展开”成新的列。这在很多场景下都非常实用，尤其当你需要从“长格式”数据回到“宽格式”数据时，或者为了更直观地比较不同类别的数据时。

一些常见的应用场景包括：

从长格式数据恢复宽格式： 很多数据分析和机器学习模型，或者一些特定的报表需求，可能更偏爱宽格式数据。比如，你通过stack()或者其他方式得到了一个包含“指标类型”（比如销售额、利润）作为索引级别的数据，现在你想把这些指标类型变回独立的列，unstack()就能派上用场。
```
# 假设 stacked_df 是之前堆叠后的Series
# 它有三级索引：城市、年份、以及原始的列名（销售额/利润）
# unstack()默认会解堆叠最内层的索引，也就是销售额/利润
unstacked_df = stacked_df.unstack()
print(unstacked_df)
# 结果会是：
#           销售额  利润
# 城市 年份
# 北京 2020   100   20
# 上海 2020   120   25
# ...
```
这样，你又回到了最初那种“销售额”和“利润”是独立列的宽格式。

按某个分类维度进行数据比较： 假设你有一个多级索引的数据，其中一个级别代表了不同的类别（比如不同产品、不同区域）。如果你想把这些类别作为列，方便横向比较它们在其他指标上的表现，unstack()就非常直观。

# 比如我们想比较不同城市在不同年份的销售额和利润
# 原始df的索引是 ['城市', '年份']
# unstack(level='城市') 会把城市从索引变成列
unstacked_by_city = df.unstack(level='城市')
print(unstacked_by_city)
# 结果会是：
#         销售额          利润
# 城市     北京   上海   广州   深圳   北京   上海   广州   深圳
# 年份
# 2020  100  120  NaN  NaN   20   25  NaN  NaN
# 2021  NaN  NaN   90  110  NaN  NaN   18   22

这样你就能一眼看出北京、上海、广州、深圳在不同年份的销售额和利润对比了。这对于制作交叉表或者进行多维度分析非常方便。

为特定图表类型准备数据： 某些绘图库或图表类型可能要求数据是特定的宽格式。例如，如果你想用Matplotlib绘制一个多系列柱状图，每个系列代表一个城市，那么将城市从索引解堆叠到列，通常能简化绘图代码。

总的来说，unstack()是你在需要将索引中的分类信息提升到列级别时，最直接也最强大的工具。

堆叠与解堆叠操作时有哪些常见的陷阱或性能注意事项？

虽然stack()和unstack()功能强大，但在实际使用中，确实有一些需要注意的地方，否则可能会遇到意想不到的结果，甚至性能问题。

NaN值的处理： 这是最常见的“坑”之一。
- stack()默认会丢弃所有包含NaN值的行。如果你不希望丢失这些信息，你可能需要在堆叠之前进行fillna()操作，或者在堆叠之后检查数据完整性。
- unstack()则相反，如果某个索引组合在解堆叠后没有对应的值，它会引入NaN。这通常是预期的行为，但如果引入了大量的NaN，可能会影响后续的计算或存储效率。
多级索引的复杂性： 当处理多级索引时，level参数的使用至关重要。
- stack(level=N)：会将指定级别（N可以是整数位置或级别名称）的列堆叠起来。如果列本身是多级列，这会更复杂。
- unstack(level=N)：会将指定索引级别的数据展开成列。如果你不指定level，unstack()默认会操作最内层的索引级别。搞错level会导致结果和你预期的完全不同，甚至抛出KeyError，因为你尝试解堆叠一个不存在的级别。
- 尝试解堆叠多个级别时，例如df.unstack(level=[0, 1])，会使得结果DataFrame的列名变得非常复杂，形成一个多级列，这在后续操作中可能不太方便。
性能考量： 对于非常大的数据集，stack()和unstack()可能会消耗较多的内存和计算时间。
- 内存使用： unstack()将行转换为列，如果转换的级别包含大量唯一值，可能导致生成一个非常宽的DataFrame，占用大量内存。尤其是在引入大量NaN时，虽然Pandas对稀疏数据有优化，但仍然可能成为瓶颈。
- 计算效率： 重塑操作涉及数据复制和索引重建，这本身就是计算密集型的。如果你的数据量达到百万甚至千万级别，频繁地进行堆叠和解堆叠，或者在循环中执行这些操作，都可能导致性能下降。
- 替代方案： 在某些聚合场景下，pivot_table可能比groupby().unstack()更高效，因为它能一步完成聚合和重塑。对于简单的列到行的转换，如果不需要生成MultiIndex，melt()函数可能更直观和高效。
数据类型强制转换： 当你堆叠不同数据类型的列时，生成的Series或DataFrame可能会被强制转换为一个能容纳所有数据类型的通用类型（例如，如果堆叠了整数和字符串，结果可能变成object类型），这可能会影响后续的数值计算。
索引名和列名： 堆叠和解堆叠后，新生成的索引级别或列名可能会是默认的数字或者原始列名，可能不够语义化。记得在操作后使用rename_axis()或直接修改df.columns来赋予它们有意义的名称，以提高代码可读性。