当前位置：首页 > 文章列表 > 文章 > python教程 > PandasDataFrame列插入技巧分享

PandasDataFrame列插入技巧分享

2025-08-12 18:09:32 0浏览收藏

还在为 Pandas DataFrame 频繁插入列导致的性能警告 "DataFrame is highly fragmented" 而烦恼吗？本文聚焦 **Pandas DataFrame 列插入优化技巧**，深入剖析 DataFrame 碎片化问题根源，即低效的 `frame.insert` 操作。通过实例展示了如何利用 `pd.concat` 函数，以更高效的方式合并列，避免 DataFrame 碎片化，显著提升数据处理速度。本文提供详细代码示例，并针对实际问题给出优化方案，助你轻松解决性能瓶颈，提升 Pandas 数据处理效率，打造高性能数据分析代码。快来学习如何告别 DataFrame 碎片化，玩转 Pandas 数据处理吧！

解决 Pandas DataFrame 高度碎片化警告：优化列插入操作

本文旨在帮助开发者解决在使用 Pandas DataFrame 时遇到的“DataFrame is highly fragmented”性能警告。该警告通常由于频繁使用 frame.insert 或类似操作导致，效率低下。本文将介绍如何通过使用 pd.concat 函数，以更高效的方式合并列，从而避免 DataFrame 碎片化，提升代码性能。

Pandas DataFrame 碎片化问题与解决方案

在使用 Pandas 进行数据处理时，频繁地向 DataFrame 中插入列可能会导致性能问题，并触发 "PerformanceWarning: DataFrame is highly fragmented" 警告。这是因为 Pandas 在底层存储 DataFrame 数据时，频繁的插入操作会导致内存碎片化，降低数据访问效率。

问题根源：低效的列插入

以下代码示例展示了导致 DataFrame 碎片化警告的典型场景：

import pandas as pd

# 创建一个示例 DataFrame
df = pd.DataFrame({f"col{i}": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] for i in range(1_000)})

# 频繁插入列 (低效)
new_df = pd.DataFrame()
for i in range(1_000):
    new_df[f"new_df_col{i}"] = df[f"col{i}"] + i

print(new_df)

运行上述代码会产生性能警告，因为在循环中不断地向 new_df 插入新列。这种方法效率很低，特别是当处理大型 DataFrame 时。

解决方案：使用 pd.concat 合并列

更高效的解决方案是使用 pd.concat 函数一次性合并所有列。以下代码展示了如何使用 pd.concat 避免 DataFrame 碎片化：

import pandas as pd

# 创建一个示例 DataFrame
df = pd.DataFrame({f"col{i}": [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] for i in range(1_000)})

# 使用字典存储新列数据
data = {}
for i in range(1_000):
    data[f"new_col{i}"] = df[f"col{i}"] + i

# 使用 pd.concat 一次性合并所有列
new_df = pd.concat(data.values(), axis=1, ignore_index=True)
new_df.columns = data.keys()  # 设置列名 (Python 3.7+ 保证插入顺序)

print(new_df)

在这个改进后的代码中，我们首先使用一个字典 data 存储所有需要添加的新列。然后，我们使用 pd.concat 函数将字典中的所有值（即新列）沿列方向（axis=1）合并成一个新的 DataFrame。这种方法避免了频繁的列插入操作，从而避免了 DataFrame 碎片化。

应用于原问题

对于原问题中提到的代码片段：

df['xcount'] = df.apply(self.go_unigram, axis=1)
df[self.listsunigram] = pd.DataFrame(df.xcount.tolist(), index=df.index)

df['xcount'] = df.apply(self.go_bigram, axis=1)
df[self.listsbigram] = pd.DataFrame(df.xcount.tolist(), index=df.index)

df['xcount'] = df.apply(self.go_complex, axis=1)
df[self.listcomplex] = pd.DataFrame(df.xcount.tolist(), index=df.index)

可以将其修改为：

df['xcount'] = df.apply(self.go_unigram, axis=1)
df = pd.concat(
    [df, pd.DataFrame(df.xcount.tolist(), index=df.index, columns=self.listsunigram)],
    axis=1,
)

df['xcount'] = df.apply(self.go_bigram, axis=1)
df = pd.concat(
    [df, pd.DataFrame(df.xcount.tolist(), index=df.index, columns=self.listsbigram)],
    axis=1,
)

df['xcount'] = df.apply(self.go_complex, axis=1)
df = pd.concat(
    [df, pd.DataFrame(df.xcount.tolist(), index=df.index, columns=self.listcomplex)],
    axis=1,
)

通过使用 pd.concat，可以避免频繁地向 DataFrame 中插入列，从而提高代码的性能。

注意事项

内存占用： 使用 pd.concat 创建新的 DataFrame 可能会占用更多的内存，特别是当处理非常大的数据集时。在这种情况下，可以考虑使用其他优化技术，例如使用 NumPy 数组进行数据处理。
数据类型： 确保要合并的列具有相同的数据类型，或者可以安全地转换为相同的数据类型。否则，可能会导致数据类型不匹配的错误。
列名冲突： 如果要合并的 DataFrame 中存在相同的列名，pd.concat 会自动重命名这些列。可以使用 suffixes 参数来指定重命名的后缀。