李宏毅机器学习 Bias and Variance

Ne0inhk

14 Jan 2025 — 7 min read

其中PPT下载地址为。

文章目录

1. Bias and Variance

这节课主要解决的问题是模型迭代的方向。那我们首先知道现有模型的问题（误差）在哪里，知道了问题所在，然后再针对性的解决问题就OK了。

Where does the error come from?（误差是从哪里来的？）
Ans:Bias and Variance（偏差和方差）。

引入Bias and Variance可以解决下图中的问题，即复杂的模型能够较好的拟合训练数据（训练数据误差小），但是却无法很好的拟合测试数据（测试数据误差大）。

www.zeeklog.com - 李宏毅机器学习 Bias and Variance

y ^ = f ^ ( x ) \hat{y} = \hat{f}(x) y^=f^(x)，其中 f ^ \hat{f} f^表示的是真实的函数，而我们寻找到的最优函数为 f ∗ f^{*} f∗， f ∗ f^{*} f∗是对 f ^ \hat{f} f^的评估。 f ^ \hat{f} f^和 f ∗ f^{*} f∗之间的误差是由两部分组成的：bias and variance。

1.1 偏差和方差的估计

首先，使用统计量（期望和方差）来表示数据，本质上是一种近似的思想。也存在期望和方差相同，但数据分布不相同的小概率事件。

假设随机变量X(总体)的数学期望为 μ \mu μ，方差为 σ 2 \sigma^{2} σ2。假设训练样本的均值为m，方差为 s 2 s^{2} s2。

通过抽样采集N个数据点: { x 1 , x 2 , … , x N } \{x^1,x^2,\dots,x^N\} {x1,x2,…,xN}，计算N个数据的平均值（不等于 μ \mu μ，因为只有数据量足够大的情况下，才能逼近 μ \mu μ）。对多个 m m m计算期望值可得到 μ \mu μ。

同样抽样采集N个数据点: { x 1 , x 2 , … , x N } \{x^1,x^2,\dots,x^N\} {x1,x2,…,xN}，计算N个数据的平均值，然后计算得到样本的方差 s 2 s^2 s2。对多个 s 2 s^2 s2计算期望值，但这却是一个有偏估计。但如果增加N的的个数，就接近于无偏估计了。

E ( s 2 ) = N − 1 N σ 2 ≠ σ 2 E(s^{2})=\frac {N-1}{N}{\sigma^{2}} {\neq} \sigma^{2} E(s2)=NN−1σ2=σ2

1.2 平行宇宙

平行宇宙指的是在样本空间中随机抽取定量的样本，通过抽取的样本来建模。

在不同的数据空间中，使用相同的模型，但得到的 f ∗ f^* f∗是不同的。

把100个 f ∗ f^* f∗都绘制出来，如下图所示，其中最上面的是线性模型，第二个最高次方是三次方，第三个最高次方是五次方。

2. bias和variance的理解

简单的模型方差比较小，复杂的模型方差比较大。简单模型不太受数据的影响，可以用极限的思想来考虑，比如 f ( x ) = c f(x)=c f(x)=c。

平均值和靶心是否接近，决定了偏差的大小。

根据下图所示，阶次越高，平均的线（蓝线）越接近于黑线。也就是说阶次越高，bias越小。

阶次越高，bias越小。model本质上是一个函数集合，函数越复杂，它的空间范围越大，越有可能包含真实的函数。而简单函数可能无法包含真实的函数。所以模型越复杂，bias比较小。

Bias过大就是欠拟合，Varirance过大就是过拟合。但问题来了，如何计算bias和variance?

如何模型无法拟合训练数据，则就是具有过大的bias。如何可以拟合训练数据，但无法拟合测试数据，那就是具有过大的variance。对于bias过大的问题，有两种做法，一种是添加输入数据的特征（好的特征没有加进来，所以无法拟合），一种是采用更加复杂的模型。

如何variance过大，该怎么处理呢？添加数据（数据增强）或者采用正则化（希望参数越小越好）。正则化可能会使得bias增加，使得函数空间不包括目标函数target。

3. 模型选择

不能直接使用第一个Testing Set评测结果最优的作为最佳的模型。这是由于真实的Testing Set和第一个Testing Set不太一样。

正确的方法是使用交叉验证，把训练集划分为训练集和验证集。通过训练数据得到模型，然后把模型放到验证集上面进行验证，假设得到最佳模型为Model 3。然后再把model 3放到Training Set所有数据上跑，得到模型的参数。**需要注意的是，不能再跟进public Testing Set的结果去重新选模型。**如果这么做的话，就会使得模型的泛化能力下降。

N折交叉检验，从而选出最佳的Model。最后再用最佳的Model在所有Training Set上面跑一下，得到模型。

顺便说一下，对于确定的模型寻找超参数，本质上和寻找不同模型中的最优模型是相同的，它是在模型参数的相同的前提下进行寻找的。

4. 拓展内容：减小方差的模型

注：本部分内容不包含在课程中。

4.1 Improving Self-Supervised Pre-Training via a Fully-Explored Masked Language Model

现有的BERT等Transformer模型采用masked language model进行自监督学习，但是随机采样的方法进行mask往往会导致梯度方差过大；本文提出不合适的mask会导致梯度方差变大，并影响模型的效果，并分析原因在于同时mask的word之间具有一定的相似度；故本文提出一种特殊的mask机制，其考虑增大被mask的word之间的差异，进而削弱梯度方差大带来的影响。

探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(2)

目录前言一、TCU模块框图二、WMMA代码分析 2.1 WMMA矩阵分块 2.2 WMMA矩阵地址偏移计算 2.2.1 WMMA matrixA 2.2.2 WMMA matrixB 2.2.3 WMMA matrixC 2.2.4 tcu_int WMMA源代码总结前言本篇分析Vortex矩阵计算的核心模块TCU WMMA。前文：探索Vortex开源GPGPU：RISC-V SIMT架构(4-2)，TCU 矩阵计算(1)https://blog.ZEEKLOG.net/weixin_

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践

Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践文章目录 * Apache IoTDB 架构特性与 Prometheus+Grafana 监控体系部署实践 * Apache IoTDB 核心特性与价值 * Apache IoTDB 监控面板完整部署方案 * 安装步骤 * 步骤一：IoTDB开启监控指标采集 * 步骤二：安装、配置Prometheus * 步骤三：安装grafana并配置数据源 * 步骤四：导入IoTDB Grafana看板 * TimechoDB（基于 Apache IoTDB）增强特性 * 总结与应用场景建议 Apache IoTDB 核心特性与价值 Apache IoTDB 专为物联网场景打造的高性能轻量级时序数据库，以 “设备 - 测点” 原生数据模型贴合物理设备与传感器关系，通过高压缩算法、百万级并发写入能力和毫秒级查询响应优化海量时序数据存储成本与处理效率，同时支持边缘轻量部署、

SQL Server 2019安装教程(超详细图文)

SQL Server 介绍） SQL Server 是由微软（Microsoft）开发的一款关系型数据库管理系统（RDBMS），支持结构化查询语言（SQL）进行数据存储、管理和分析。自1989年首次发布以来，SQL Server 已成为企业级数据管理的核心解决方案，广泛应用于金融、电商、ERP、CRM 等业务系统。它提供高可用性、安全性、事务处理（ACID）和商业智能（BI）支持，并支持 Windows 和 Linux 跨平台部署。一、获取 SQL Server 2019 安装包 1. 官方下载方式前往微软官网注册账号后，即可下载 SQL Server Developer 版本（