Python 真实世界数据科学：回归分析预测连续目标变量 | 极客日志

PythonAI算法

Python 真实世界数据科学：回归分析预测连续目标变量

本章介绍回归分析用于预测连续目标变量。内容涵盖探索性数据分析、简单线性回归模型实现（梯度下降法）、普通最小二乘法、稳健回归（RANSAC）、模型评估指标（MSE、R²）、正则化方法（Ridge、LASSO、Elastic Net）、多项式回归以及随机森林回归。通过波士顿住房数据集演示了从数据加载、特征可视化到模型训练与评估的全过程，对比了不同回归方法的性能与适用场景。

SecGuard发布于 2026/3/24更新于 2026/7/1262 浏览

四十二、使用回归分析预测连续目标变量

在前几章中，您了解了监督学习背后的主要概念，并为分类任务训练了许多不同的模型以预测组成员或分类变量。在本章中，我们将深入研究监督学习的另一个子类别：回归分析。

回归模型用于在连续规模上预测目标变量，这使它们对于解决科学和工业应用中的许多问题具有吸引力，例如理解变量之间的关系，评估趋势或进行预测。一个例子是预测未来几个月公司的销售额。

在本章中，我们将讨论回归模型的主要概念，并涉及以下主题：

探索和可视化数据集
研究实现线性回归模型的不同方法
训练对异常值具有鲁棒性的回归模型
评估回归模型并诊断常见问题
将回归模型拟合到非线性数据

介绍一个简单的线性回归模型

简单（单变量）线性回归的目标是为单个特征（解释变量 x）与连续值响应之间的关系建模的模型（目标变量 y）。具有一个解释变量的线性模型方程定义如下：

在此，权重 w[0] 代表 y 轴截距，w[1] 是解释变量的系数。我们的目标是学习线性方程的权重，以描述解释变量与目标变量之间的关系，然后将其用于预测不属于训练数据集的新解释变量的响应。

根据我们先前定义的线性方程，线性回归可以理解为通过样本点找到最合适的直线。此最佳拟合线也称为回归线，从回归线到采样点的垂直线为偏移量或残差——我们预测的误差。

一个解释变量的特殊情况也称为简单线性回归，但是我们当然也可以将线性回归模型推广到多个解释变量。因此，此过程称为多元线性回归：

此处，w[0] 是与 x[0] = 1 相对的 y 轴截距。

探索房屋数据集

在实施第一个线性回归模型之前，我们将介绍一个新数据集住房数据集，其中包含 D. Harrison 和 D.L.收集的波士顿郊区房屋信息。1978 年鲁宾菲尔德（Rubinfeld）。住房数据集已免费提供，可以从 UCI 机器学习存储库下载。

506 个样本的特征可以汇总，如数据集描述的摘录所示：

CRIM：这是城镇的人均犯罪率
ZN：这是划分给大于 25,000 平方英尺的地块的住宅用地比例。
INDUS：这是每个城镇的非零售营业面积的比例
CHAS：这是查尔斯河虚拟变量（如果束缚河，则等于 1；否则为 0）
NOX：这是一氧化氮的浓度（百万分之几）
RM：这是每个住宅的平均房间数
AGE：这是 1940 年之前建造的自有住房的比例
DIS：这是到五个波士顿就业中心的加权距离
RAD：这是径向公路的可达性指数
TAX：这是每 10,000 美元的全值财产税率
PTRATIO：这是按城镇划分的师生比率
B：这是按 1000（Bk-0.63）^ 2 计算的，其中 Bk 是按城镇划分的非裔美国人的比例
LSTAT：这是总人口比例降低的百分比
MEDV：这是自用房屋的中位数，单位为$ 1000

对于本章的其余部分，我们将房价（MEDV）视为目标变量，即我们要使用 13 个解释变量中的一个或多个来预测的变量。在进一步探索该数据集之前，让我们将其从 UCI 存储库中提取到 Pandas DataFrame 中：

>>> import pandas as pd
>>> df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data',
... header=None, sep='\s+')
>>> df.columns = ['CRIM','ZN','INDUS','CHAS','NOX',,,,,
,,,,]
df.head()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

>>> import matplotlib.pyplot as plt
>>> import seaborn as sns
>>> sns.set(style='whitegrid', context='notebook')
>>> cols = ['LSTAT','INDUS','NOX','RM','MEDV']
>>> sns.pairplot(df[cols], size=2.5)
>>> plt.show()

>>> sns.reset_orig()

>>> import numpy as np
>>> cm = np.corrcoef(df[cols].values.T)
>>> sns.set(font_scale=1.5)
>>> hm = sns.heatmap(cm,
... cbar=True,
... annot=True,
... square=True,
... fmt='.2f',
... annot_kws={'size':15},
... yticklabels=cols,
... xticklabels=cols)
>>> plt.show()

class LinearRegressionGD(object):
    def __init__(self, eta=0.001, n_iter=20):
        self.eta = eta
        self.n_iter = n_iter
    
    def fit(self, X, y):
        self.w_ = np.zeros(1 + X.shape[1])
        self.cost_ = []
        for i in range(self.n_iter):
            output = self.net_input(X)
            errors = (y - output)
            self.w_[1:] += self.eta * X.T.dot(errors)
            self.w_[0] += self.eta * errors.sum()
            cost = (errors**2).sum() / 2.0
            self.cost_.append(cost)
        return self
    
    def net_input(self, X):
        return np.dot(X, self.w_[1:]) + self.w_[0]
    
    def predict(self, X):
        return self.net_input(X)

>>> X = df[['RM']].values
>>> y = df['MEDV'].values
>>> from sklearn.preprocessing import StandardScaler
>>> sc_x = StandardScaler()
>>> sc_y = StandardScaler()
>>> X_std = sc_x.fit_transform(X)
>>> y_std = sc_y.fit_transform(y)
>>> lr = LinearRegressionGD()
>>> lr.fit(X_std, y_std)

>>> plt.plot(range(1, lr.n_iter+1), lr.cost_)
>>> plt.ylabel('SSE')
>>> plt.xlabel('Epoch')
>>> plt.show()

>>> def lin_regplot(X, y, model):
...     plt.scatter(X, y, c='blue')
...     plt.plot(X, model.predict(X), color='red')
...     return None

>>> lin_regplot(X_std, y_std, lr)
>>> plt.xlabel('Average number of rooms [RM] (standardized)')
>>> plt.ylabel('Price in $1000\'s [MEDV] (standardized)')
>>> plt.show()

>>> num_rooms_std = sc_x.transform([5.0])
>>> price_std = lr.predict(num_rooms_std)
>>> print("Price in $1000's: %.3f" % \
... sc_y.inverse_transform(price_std))
Price in $1000's: 10.840

>>> print('Slope: %.3f' % lr.w_[1])
Slope: 0.695
>>> print('Intercept: %.3f' % lr.w_[0])
Intercept: -0.000

>>> from sklearn.linear_model import LinearRegression
>>> slr = LinearRegression()
>>> slr.fit(X, y)
>>> print('Slope: %.3f' % slr.coef_[0])
Slope: 9.102
>>> print('Intercept: %.3f' % slr.intercept_)
Intercept: -34.671

>>> lin_regplot(X, y, slr)
>>> plt.xlabel('Average number of rooms [RM]')
>>> plt.ylabel('Price in $1000\'s [MEDV]')
>>> plt.show()

# adding a column vector of "ones"
>>> Xb = np.hstack((np.ones((X.shape[0],1)), X))
>>> w = np.zeros(X.shape[1])
>>> z = np.linalg.inv(np.dot(Xb.T, Xb))
>>> w = np.dot(z, np.dot(Xb.T, y))
>>> print('Slope: %.3f' % w[1])
Slope: 9.102
>>> print('Intercept: %.3f' % w[0])
Intercept: -34.671

>>> from sklearn.linear_model import RANSACRegressor
>>> ransac = RANSACRegressor(LinearRegression(),
... max_trials=100,
... min_samples=50,
... residual_metric=lambda x: np.sum(np.abs(x), axis=1),
... residual_threshold=5.0,
... random_state=0)
>>> ransac.fit(X, y)

>>> inlier_mask = ransac.inlier_mask_
>>> outlier_mask = np.logical_not(inlier_mask)
>>> line_X = np.arange(3,10,1)
>>> line_y_ransac = ransac.predict(line_X[:, np.newaxis])
>>> plt.scatter(X[inlier_mask], y[inlier_mask],
... c='blue', marker='o', label='Inliers')
>>> plt.scatter(X[outlier_mask], y[outlier_mask],
... c='lightgreen', marker='s', label='Outliers')
>>> plt.plot(line_X, line_y_ransac, color='red')
>>> plt.xlabel('Average number of rooms [RM]')
>>> plt.ylabel('Price in $1000\'s [MEDV]')
>>> plt.legend(loc='upper left')
>>> plt.show()

>>> print('Slope: %.3f' % ransac.estimator_.coef_[0])
Slope: 9.621
>>> print('Intercept: %.3f' % ransac.estimator_.intercept_)
Intercept: -37.137

>>> from sklearn.model_selection import train_test_split
>>> X = df.iloc[:,:-1].values
>>> y = df['MEDV'].values
>>> X_train, X_test, y_train, y_test = train_test_split(
... X, y, test_size=0.3, random_state=0)
>>> slr = LinearRegression()
>>> slr.fit(X_train, y_train)
>>> y_train_pred = slr.predict(X_train)
>>> y_test_pred = slr.predict(X_test)

>>> plt.scatter(y_train_pred, y_train_pred - y_train,
... c='blue', marker='o', label='Training data')
>>> plt.scatter(y_test_pred, y_test_pred - y_test,
... c='lightgreen', marker='s', label='Test data')
>>> plt.xlabel('Predicted values')
>>> plt.ylabel('Residuals')
>>> plt.legend(loc='upper left')
>>> plt.hlines(y=0, xmin=-10, xmax=50, lw=2, color='red')
>>> plt.xlim([-10,50])
>>> plt.show()

>>> from sklearn.metrics import mean_squared_error
>>> print('MSE train: %.3f, test: %.3f' % (
... mean_squared_error(y_train, y_train_pred),
... mean_squared_error(y_test, y_test_pred)))

>>> from sklearn.metrics import r2_score
>>> print('R^2 train: %.3f, test: %.3f' %
... (r2_score(y_train, y_train_pred),
... r2_score(y_test, y_test_pred)))

>>> from sklearn.linear_model import Ridge
>>> ridge = Ridge(alpha=1.0)

>>> from sklearn.linear_model import Lasso
>>> lasso = Lasso(alpha=1.0)

>>> from sklearn.linear_model import ElasticNet
>>> lasso = ElasticNet(alpha=1.0, l1_ratio=0.5)

>>> pr.fit(X_quad, y)
>>> y_quad_fit = pr.predict(quadratic.fit_transform(X_fit))
Plot the results:
>>> plt.scatter(X, y, label='training points')
>>> plt.plot(X_fit, y_lin_fit,
... label='linear fit', linestyle='--')
>>> plt.plot(X_fit, y_quad_fit,
... label='quadratic fit')
>>> plt.legend(loc='upper left')
>>> plt.show()

>>> lr.fit(X, y)
>>> X_fit = np.arange(250,600,10)[:, np.newaxis]
>>> y_lin_fit = lr.predict(X_fit)

from sklearn.preprocessing import PolynomialFeatures
>>> X = np.array([258.0,270.0,294.0, … 320.0,342.0,368.0, …
... 396.0,446.0,480.0, … 586.0])[:, np.newaxis]
>>> y = np.array([236.4,234.4,252.8, … 298.6,314.2,342.2, …
... 360.8,368.0,391.2, … 390.8])
>>> lr = LinearRegression()
>>> pr = LinearRegression()
>>> quadratic = PolynomialFeatures(degree=2)
>>> X_quad = quadratic.fit_transform(X)

>>> y_lin_pred = lr.predict(X)
>>> y_quad_pred = pr.predict(X_quad)
>>> print('Training MSE linear: %.3f, quadratic: %.3f' % (
... mean_squared_error(y, y_lin_pred),
... mean_squared_error(y, y_quad_pred)))
Training MSE linear: 569.780, quadratic: 61.330
>>> print('Training R^2 linear: %.3f, quadratic: %.3f' % (
... r2_score(y, y_lin_pred),
... r2_score(y, y_quad_pred)))
Training R^2 linear: 0.832, quadratic: 0.982

>>> X = df[['LSTAT']].values
>>> y = df['MEDV'].values
>>> regr = LinearRegression()
# create polynomial features
>>> quadratic = PolynomialFeatures(degree=2)
>>> cubic = PolynomialFeatures(degree=3)
>>> X_quad = quadratic.fit_transform(X)
>>> X_cubic = cubic.fit_transform(X)
# linear fit
>>> X_fit = np.arange(X.min(), X.max(),1)[:, np.newaxis]
>>> regr = regr.fit(X, y)
>>> y_lin_fit = regr.predict(X_fit)
>>> linear_r2 = r2_score(y, regr.predict(X))
# quadratic fit
>>> regr = regr.fit(X_quad, y)
>>> y_quad_fit = regr.predict(quadratic.fit_transform(X_fit))
>>> quadratic_r2 = r2_score(y, regr.predict(X_quad))
# cubic fit
>>> regr = regr.fit(X_cubic, y)
>>> y_cubic_fit = regr.predict(cubic.fit_transform(X_fit))
>>> cubic_r2 = r2_score(y, regr.predict(X_cubic))
# plot results
>>> plt.scatter(X, y,
... label='training points',
... color='lightgray')
>>> plt.plot(X_fit, y_lin_fit,
... label='linear (d=1), $R^2=%.2f$'
... % linear_r2,
... color='blue',
... lw=2,
... linestyle=':')
>>> plt.plot(X_fit, y_quad_fit,
... label='quadratic (d=2), $R^2=%.2f$'
... % quadratic_r2,
... color='red',
... lw=2,
... linestyle='-')
>>> plt.plot(X_fit, y_cubic_fit,
... label='cubic (d=3), $R^2=%.2f$'
... % cubic_r2,
... color='green',
... lw=2,
... linestyle='--')
>>> plt.xlabel('% lower status of the population [LSTAT]')
>>> plt.ylabel('Price in $1000\'s [MEDV]')
>>> plt.legend(loc='upper right')
>>> plt.show()

# transform features
>>> X_log = np.log(X)
>>> y_sqrt = np.sqrt(y)
# fit features
>>> X_fit = np.arange(X_log.min()-1,
... X_log.max()+1,1)[:, np.newaxis]
>>> regr = regr.fit(X_log, y_sqrt)
>>> y_lin_fit = regr.predict(X_fit)
>>> linear_r2 = r2_score(y_sqrt, regr.predict(X_log))
# plot results
>>> plt.scatter(X_log, y_sqrt,
... label='training points',
... color='lightgray')
>>> plt.plot(X_fit, y_lin_fit,
... label='linear (d=1), $R^2=%.2f$' % linear_r2,
... color='blue',
... lw=2)
>>> plt.xlabel('log(% lower status of the population [LSTAT])')
>>> plt.ylabel('$\sqrt{Price \; in \; $1000\'s [MEDV]}$')
>>> plt.legend(loc='lower left')
>>> plt.show()

>>> from sklearn.tree import DecisionTreeRegressor
>>> X = df[['LSTAT']].values
>>> y = df['MEDV'].values
>>> tree = DecisionTreeRegressor(max_depth=3)
>>> tree.fit(X, y)
>>> sort_idx = X.flatten().argsort()
>>> lin_regplot(X[sort_idx], y[sort_idx], tree)
>>> plt.xlabel('% lower status of the population [LSTAT]')
>>> plt.ylabel('Price in $1000\'s [MEDV]')
>>> plt.show()

>>> X = df.iloc[:,:-1].values
>>> y = df['MEDV'].values
>>> X_train, X_test, y_train, y_test =\
... train_test_split(X, y,
... test_size=0.4,
... random_state=1)
>>> from sklearn.ensemble import RandomForestRegressor
>>> forest = RandomForestRegressor(
... n_estimators=1000,
... criterion='mse',
... random_state=1,
... n_jobs=-1)
>>> forest.fit(X_train, y_train)
>>> y_train_pred = forest.predict(X_train)
>>> y_test_pred = forest.predict(X_test)
>>> print('MSE train: %.3f, test: %.3f' % (
... mean_squared_error(y_train, y_train_pred),
... mean_squared_error(y_test, y_test_pred)))
>>> print('R^2 train: %.3f, test: %.3f' % (
... r2_score(y_train, y_train_pred),
... r2_score(y_test, y_test_pred)))
MSE train: 1.642, test: 11.635
R^2 train: 0.960, test: 0.871

>>> plt.scatter(y_train_pred,
... y_train_pred - y_train,
... c='black',
... marker='o',
... s=35,
... alpha=0.5,
... label='Training data')
>>> plt.scatter(y_test_pred,
... y_test_pred - y_test,
... c='lightgreen',
... marker='s',
... s=35,
... alpha=0.7,
... label='Test data')
>>> plt.xlabel('Predicted values')
>>> plt.ylabel('Residuals')
>>> plt.legend(loc='upper left')
>>> plt.hlines(y=0, xmin=-10, xmax=50, lw=2, color='red')
>>> plt.xlim([-10,50])
>>> plt.show()

Python 真实世界数据科学：回归分析预测连续目标变量

四十二、使用回归分析预测连续目标变量

介绍一个简单的线性回归模型

探索房屋数据集

更多推荐文章

相关免费在线工具

可视化数据集的重要特征

注意

注意

注意

实现普通的最小二乘线性回归模型

用梯度下降法求解回归参数的回归

通过 scikit-learn 估算回归模型的系数

注意

使用 RANSAC 拟合稳健的回归模型

评估线性回归模型的性能

使用正则化方法进行回归

将线性回归模型变成曲线 - 多项式回归

在房屋数据集中建模非线性关系

使用随机森林处理非线性关系

决策树回归

随机森林回归

注意

更多推荐文章

相关免费在线工具

Python 真实世界数据科学：回归分析预测连续目标变量

四十二、使用回归分析预测连续目标变量

介绍一个简单的线性回归模型

探索房屋数据集

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

可视化数据集的重要特征

注意

注意

注意

实现普通的最小二乘线性回归模型

用梯度下降法求解回归参数的回归

通过 scikit-learn 估算回归模型的系数

注意

使用 RANSAC 拟合稳健的回归模型

评估线性回归模型的性能

使用正则化方法进行回归

将线性回归模型变成曲线 - 多项式回归

在房屋数据集中建模非线性关系

使用随机森林处理非线性关系

决策树回归

随机森林回归

注意

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具