特征工程深度解析：原理、方法与工程实践

特征工程深度解析：原理、方法与工程实践 | 极客日志

from sklearn.preprocessing import MinMaxScaler, StandardScaler
scaler = MinMaxScaler()
X_norm = scaler.fit_transform(X)
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

import pandas as pd
# 等宽分箱
df['age_bin'] = pd.cut(df['age'], bins=5, labels=False)
# 等频分箱
df['income_bin'] = pd.qcut(df['income'], q=4, labels=False)

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
X_poly = poly.fit_transform(X)

import pandas as pd
df = pd.get_dummies(df, columns=['color', 'city'])

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['grade_encoded'] = le.fit_transform(df['grade'])

mean_map = df.groupby('category')['target'].mean()
df['category_mean_enc'] = df['category'].map(mean_map)

freq_map = df['category'].value_counts(normalize=True)
df['category_freq_enc'] = df['category'].map(freq_map)

df['month'] = df['date'].dt.month
df['dayofweek'] = df['date'].dt.dayofweek
df['is_weekend'] = df['date'].dt.dayofweek >= 5

df['sales_lag_1'] = df['sales'].shift(1)
df['sales_rolling_mean_7'] = df['sales'].rolling(window=7).mean()

from gensim.models import Word2Vec
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)
vector = w2v_model.wv['word_example']

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(ngram_range=(1,2), max_features=1000)
X_tfidf = vectorizer.fit_transform(df['text'])

from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0.01)
X_selected = selector.fit_transform(X)

from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
rfe = RFE(estimator=LogisticRegression(), n_features_to_select=10)
X_rfe = rfe.fit_transform(X, y)

from sklearn.linear_model import Lasso
lasso = Lasso(alpha=0.01)
lasso.fit(X, y)
selected_features = X.columns[lasso.coef_ != 0]

from sklearn.decomposition import PCA
pca = PCA(n_components=10)
X_pca = pca.fit_transform(X)

import featuretools as ft
es = ft.EntitySet(id='data')
es = es.entity_from_dataframe(entity_id='df', dataframe=df, index='id')
feature_matrix, feature_defs = ft.dfs(entityset=es, target_entity='df')

行业/场景	原始特征举例	典型特征工程方法与新特征
金融风控	年龄、收入、负债	负债率、信用利用率、历史违约次数
医疗健康	年龄、BMI、血压、血糖	代谢风险分数、年龄调整健康指数
电商推荐	浏览记录、点击、购买	用户活跃度、转化率、商品热度
NLP	原始文本	TF-IDF、N-gram、情感分数
自动驾驶	传感器原始信号、图像	车速变化率、障碍物距离、天气编码

特征工程深度解析：原理、方法与工程实践

特征工程深度解析：原理、方法与工程实践

一、什么是特征工程？

1.1 特征的定义

二、特征工程的核心流程

三、特征工程的数学表达

3.1 特征变换（Feature Transformation）

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

3.2 特征构造（Feature Construction）

3.3 特征提取（以 PCA 为例）

3.4 特征选择（以 L1 正则化为例）

四、主流特征工程方法体系与实践

4.1 数值型特征工程

4.1.1 归一化（Normalization）与标准化（Standardization）

4.1.2 分箱（Binning）

4.1.3 多项式与交互特征（Polynomial & Interaction Features）

4.2 类别型特征工程

4.2.1 One-Hot 编码（One-Hot Encoding）

4.2.2 标签编码（Label Encoding）

4.2.3 目标编码（Target/Mean Encoding）

4.2.4 频率编码（Frequency Encoding）

4.3 时间序列与日期特征工程

4.3.1 时间特征提取

4.3.2 滞后与滑动窗口特征

4.4 文本与非结构化数据特征工程

4.4.1 文本特征提取

4.4.2 图像与音频特征

4.5 特征选择与降维

4.5.1 过滤法（Filter）

4.5.2 包裹法（Wrapper）

4.5.3 嵌入法（Embedded）

4.5.4 降维（Dimensionality Reduction）

4.6 自动化特征工程（AutoFE）

五、特征工程的实际案例

六、特征工程的价值与挑战

6.1 价值

6.2 挑战

七、未来趋势与发展方向

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具