当前位置：首页 > 文章列表 > 文章 > python教程 > Python特征工程技巧与实战应用

Python特征工程技巧与实战应用

2025-07-04 21:09:54 0浏览收藏

本文深入探讨了Python中特征工程的技巧与实战方法，旨在提升模型性能和泛化能力，符合百度SEO优化标准。特征工程是将原始数据转化为模型更易理解和使用的特征的关键步骤，涵盖缺失值处理、数值型特征处理（标准化、归一化、离散化）、特征组合（如计算BMI）、类别型特征处理（独热编码、标签编码）以及文本特征处理（词袋模型、TF-IDF）等。文章通过对比基线模型与新特征模型的性能指标，并结合特征重要性分析，帮助读者判断特征工程的有效性，同时避免常见的过度工程、数据泄露等误区。结合Pandas、Numpy和Scikit-learn等库，提供了丰富的Python代码示例，助力读者掌握特征工程的核心技术，并在实际项目中应用。

特征工程是将原始数据转化为模型更易理解和使用的特征的过程。其核心在于通过缺失值处理（如填充均值、中位数或删除行/列）、数值型特征处理（标准化、归一化、离散化）、特征组合（如计算BMI）、类别型特征处理（独热编码、标签编码）以及文本特征处理（词袋模型、TF-IDF）等方法，提升模型性能和泛化能力。判断特征工程是否有效可通过对比基线模型与新特征模型的性能指标及分析特征重要性实现。常见误区包括过度工程、数据泄露、忽视业务理解、不进行特征选择和忽略数据质量。

Python中如何进行特征工程？

特征工程，简单来说，就是把原始数据变成模型能更好理解和使用的特征。与其说是工程，不如说是一门艺术，需要在理解数据的基础上，发挥创造力。

解决方案

特征工程在Python中实现，离不开一些强大的库，比如Pandas、Numpy和Scikit-learn。以下是一些常用的特征工程方法，结合代码示例，希望能给你一些启发：

缺失值处理：

填充： 可以用均值、中位数、众数等填充。

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
data = {'col1': [1, 2, np.nan, 4, 5],
        'col2': [6, np.nan, 8, 9, 10]}
df = pd.DataFrame(data)

# 使用均值填充缺失值
df_filled_mean = df.fillna(df.mean())

# 使用中位数填充缺失值
df_filled_median = df.fillna(df.median())

print("原始数据:\n", df)
print("\n均值填充后的数据:\n", df_filled_mean)
print("\n中位数填充后的数据:\n", df_filled_median)

删除： 如果缺失值过多，可以直接删除包含缺失值的行或列。但是要慎重，可能会损失信息。

# 删除包含缺失值的行
df_dropped_rows = df.dropna()

# 删除包含缺失值的列 (不太推荐，除非确实没用)
# df_dropped_cols = df.dropna(axis=1)

print("删除包含缺失值的行后的数据:\n", df_dropped_rows)

数值型特征处理：

标准化/归一化： 将数值缩放到一个特定范围，消除量纲影响。

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 创建一个示例数据
data = np.array([[1, 2], [3, 4], [5, 6]], dtype=float)

# 标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)
print("标准化后的数据:\n", scaled_data)

# 归一化
min_max_scaler = MinMaxScaler()
normalized_data = min_max_scaler.fit_transform(data)
print("\n归一化后的数据:\n", normalized_data)

离散化： 将连续数值分成几个离散区间。

# 使用pandas.cut进行等宽离散化
bins = 3  # 分成3个区间
df['col1_binned'] = pd.cut(df['col1'], bins=bins, labels=False) #labels=False返回的是区间的索引

print("\n离散化后的数据:\n", df)

特征组合： 将多个特征组合成一个新的特征，例如计算BMI（身体质量指数）。

# 假设我们有身高和体重两列
df['height'] = [1.75, 1.80, 1.65, 1.70, 1.85]  # 单位：米
df['weight'] = [70, 80, 60, 65, 90]  # 单位：公斤

# 计算BMI
df['BMI'] = df['weight'] / (df['height'] ** 2)

print("\n计算BMI后的数据:\n", df)

类别型特征处理：

独热编码（One-Hot Encoding）： 将每个类别转换成一个二进制向量。

from sklearn.preprocessing import OneHotEncoder

# 创建一个包含类别型特征的DataFrame
data = {'color': ['red', 'blue', 'green', 'red', 'blue']}
df = pd.DataFrame(data)

# 使用OneHotEncoder进行独热编码
encoder = OneHotEncoder(sparse_output=False) #sparse=False 返回的是numpy array
encoded_data = encoder.fit_transform(df[['color']])

# 创建新的DataFrame
encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(['color']))

print("原始数据:\n", df)
print("\n独热编码后的数据:\n", encoded_df)

标签编码（Label Encoding）： 将每个类别转换成一个数字。

from sklearn.preprocessing import LabelEncoder

# 使用LabelEncoder进行标签编码
label_encoder = LabelEncoder()
df['color_encoded'] = label_encoder.fit_transform(df['color'])

print("\n标签编码后的数据:\n", df)

文本特征处理：

词袋模型（Bag of Words）： 将文本转换成词频向量。

from sklearn.feature_extraction.text import CountVectorizer

# 创建一些文本数据
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]

# 使用CountVectorizer创建词袋模型
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

# 打印词汇表和词频矩阵
print("词汇表:", vectorizer.vocabulary_)
print("\n词频矩阵:\n", X.toarray()) #X是稀疏矩阵，toarray()转换成numpy array

TF-IDF： 考虑词频和逆文档频率，更能体现词的重要性。

from sklearn.feature_extraction.text import TfidfVectorizer

# 使用TfidfVectorizer创建TF-IDF向量
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

# 打印TF-IDF矩阵
print("\nTF-IDF矩阵:\n", X.toarray())

特征工程的目的是什么？为什么它如此重要？

特征工程的目的在于提升模型的性能和泛化能力。好的特征可以简化模型，减少过拟合的风险，并提高模型的解释性。重要性体现在：数据决定了模型的上限，而特征工程决定了模型能逼近这个上限的程度。

如何判断特征工程是否有效？

判断特征工程是否有效，最直接的方法就是通过实验。可以采用以下步骤：