机器学习核心算法实战笔记：从 KNN 到集成学习

机器学习核心算法实战笔记

一、前言

本课程笔记涵盖了机器学习的基础概念与核心算法，包括 KNN、线性回归、逻辑回归、决策树及集成学习等。内容包含数学原理推导、特征工程处理、模型评估指标以及多个经典实战案例。

二、机器学习概述

1. 大纲介绍

课程主要涵盖机器学习基础、常用算法原理、建模流程及实战项目。

2. AI、ML、DL 关系

人工智能（AI）是宏观领域，机器学习（ML）是其子集，深度学习（DL）则是机器学习的一个分支，侧重于神经网络的应用。

3. 基于规则和模型的方法

传统方法依赖人工规则，而机器学习通过数据训练模型自动发现规律。

4. 应用领域与发展史

机器学习广泛应用于推荐系统、图像识别、自然语言处理等领域。

5. 名词解释

样本：输入数据
特征：描述样本的属性
标签：预测的目标值
模型：从数据中学习到的函数映射

6. 算法分类

监督学习、无监督学习、强化学习。

7. 建模流程

数据收集 -> 预处理 -> 特征工程 -> 模型选择 -> 训练 -> 评估 -> 部署。

8. 特征工程

涉及特征选择、构造、归一化与标准化，对模型效果影响显著。

9. 模型拟合问题

欠拟合：模型过于简单，无法捕捉数据规律。
过拟合：模型过于复杂，记住了噪声而非规律。
理想拟合：在训练集和测试集上表现均衡。

10. 环境搭建

配置 Python 环境及相关库（如 NumPy, Pandas, Scikit-learn）。

三、KNN 算法

1. 距离度量

常用欧氏距离、曼哈顿距离等。欧氏距离为平方和开根号。

2. 特征预处理

归一化：将数据缩放到 [0, 1]，受极值影响大。
标准化：使数据符合标准正态分布，适用于大数据集。

3. 鸢尾花案例

使用 Iris 数据集进行 KNN 分类演示，包括数据查看、可视化、切分训练集与测试集、模型评估。

4. 交叉验证与网格搜索

用于优化超参数，提高模型泛化能力。

5. 手写数字识别

使用 MNIST 数据集，展示模型训练、保存与加载过程。注意随机种子设置对结果的影响。

四、线性回归

1. 简介

用于预测连续值的回归算法，假设特征与目标呈线性关系。

2. 损失函数

常用均方误差（MSE），衡量预测值与真实值的差距。

3. 导数与偏导数复习

梯度下降法依赖于导数计算，需理解单变量与多变量情况下的偏导数含义。

4. 正规方程法

通过矩阵运算直接求解最优参数，公式为 $w = (X^T X)^{-1} X^T y$。注意矩阵可逆条件。

机器学习核心算法实战笔记：从 KNN 到集成学习