机器学习核心算法实战笔记
一、前言
本课程笔记涵盖了机器学习的基础概念与核心算法,包括 KNN、线性回归、逻辑回归、决策树及集成学习等。内容包含数学原理推导、特征工程处理、模型评估指标以及多个经典实战案例。
二、机器学习概述
1. 大纲介绍
课程主要涵盖机器学习基础、常用算法原理、建模流程及实战项目。
2. AI、ML、DL 关系
人工智能(AI)是宏观领域,机器学习(ML)是其子集,深度学习(DL)则是机器学习的一个分支,侧重于神经网络的应用。
3. 基于规则和模型的方法
传统方法依赖人工规则,而机器学习通过数据训练模型自动发现规律。
4. 应用领域与发展史
机器学习广泛应用于推荐系统、图像识别、自然语言处理等领域。
5. 名词解释
- 样本:输入数据
- 特征:描述样本的属性
- 标签:预测的目标值
- 模型:从数据中学习到的函数映射
6. 算法分类
监督学习、无监督学习、强化学习。
7. 建模流程
数据收集 -> 预处理 -> 特征工程 -> 模型选择 -> 训练 -> 评估 -> 部署。
8. 特征工程
涉及特征选择、构造、归一化与标准化,对模型效果影响显著。
9. 模型拟合问题
- 欠拟合:模型过于简单,无法捕捉数据规律。
- 过拟合:模型过于复杂,记住了噪声而非规律。
- 理想拟合:在训练集和测试集上表现均衡。
10. 环境搭建
配置 Python 环境及相关库(如 NumPy, Pandas, Scikit-learn)。
三、KNN 算法
1. 距离度量
常用欧氏距离、曼哈顿距离等。欧氏距离为平方和开根号。
2. 特征预处理
- 归一化:将数据缩放到 [0, 1],受极值影响大。
- 标准化:使数据符合标准正态分布,适用于大数据集。
3. 鸢尾花案例
使用 Iris 数据集进行 KNN 分类演示,包括数据查看、可视化、切分训练集与测试集、模型评估。
4. 交叉验证与网格搜索
用于优化超参数,提高模型泛化能力。
5. 手写数字识别
使用 MNIST 数据集,展示模型训练、保存与加载过程。注意随机种子设置对结果的影响。
四、线性回归
1. 简介
用于预测连续值的回归算法,假设特征与目标呈线性关系。
2. 损失函数
常用均方误差(MSE),衡量预测值与真实值的差距。
3. 导数与偏导数复习
梯度下降法依赖于导数计算,需理解单变量与多变量情况下的偏导数含义。
4. 正规方程法
通过矩阵运算直接求解最优参数,公式为 $w = (X^T X)^{-1} X^T y$。注意矩阵可逆条件。


