机器学习算法笔记(线性回归)
线性回归
线性回归模型
线性回归是一种线性模型,它假设输入变量x和单个输出变量y之间存在线性关系。
具体来说,利用线性回归模型,可以从一组输入变量x的线性组合中,计算输出变量y
y = a x + b y = ax + b y=ax+b
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x) = w_1x_1 +w_2x_2 + ... + w_dx_d +b f(x)=w1x1+w2x2+...+wdxd+b
最小二乘法
基于均方误差最小化来进行模型求解的方法称为最小二乘法。它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小。
我们假设输入属性(特征)的数目只有一个:
f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i f(x_i) = wx_i + b, 使得f(x_i) \approx y_i f(xi)=wxi+b,使得f(xi)≈yi在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 (w^*,b^*) = \underset{(w,b)}{argmin} \sum_{i = 1}^{m} {(f(x_i) - y_i)^2} (w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2
简单示例
代码如下:
import numpy as np import matplotlib.pyplot as plt ## 1. 导入数据 pts = np.genfromtxt("data.csv", delimiter=',') # 提取pts中两列数据,分别作为x,y x = pts[:, 0] y = pts[:, 1] # 用plt画图 plt.scatter(x, y) plt.show() 
# 2.定义损失函数 # 损失函数是系数的函数,另外还要传入数据 def cost(w, b, pts): total_ = 0 m = len(pts) # 计算损失误差,求平均值 for i in range(m): x = pts[i, 0] y = pts[i, 1] total_ += (y - w * x - b) ** 2 return total_/m # 3. 定义算法拟合函数 def avg(data): s = 0 n = len(data) for i in range(n): s += data[i] return s/n # 定义拟合函数 def fit(pts): m = len(pts) x_ = avg(pts[:,0]) sum_yx = 0 sum_x2 = 0 for i in range(m): x = pts[i, 0] y = pts[i, 1] sum_yx += y * (x - x_) sum_x2 += x ** 2 # 根据公式计算 w = sum_yx / (sum_x2 - m * (x_ ** 2)) sum_d = 0 for i in range(m): x = pts[i, 0] y = pts[i, 1] sum_d += (y - w * x) b = sum_d / m return w, b # 测试 w, b = fit(pts) print(f"w is: {w}", f"b is {b}") cos = cost(w, b, pts) print(f"cost is: {cos}") # 画出拟合曲线 plt.scatter(x,y) # 针对每个x 计算 y pred_y = w * x + b plt.plot(x, pred_y, c='b') plt.show() 