机器学习核心算法实战笔记：从 KNN 到集成学习

机器学习概述

AI、ML 与 DL 的关系

人工智能（AI）是广义概念，机器学习（ML）是其子集，深度学习（DL）则是机器学习的一种特殊形式。理解这三者的层级关系有助于构建清晰的知识体系。

基于规则与模型的区别

传统编程依赖人工编写规则，而机器学习通过数据训练模型自动发现规律。随着数据量增加，模型泛化能力通常优于硬编码规则。

应用领域与发展史

机器学习已广泛应用于推荐系统、图像识别、自然语言处理等领域。发展过程中经历了从感知机到神经网络，再到集成学习的演进。

核心名词与算法分类

监督学习：有标签数据，如回归、分类。
无监督学习：无标签数据，如聚类、降维。
半监督学习：少量标签 + 大量无标签。

建模流程与特征工程

标准流程包括：数据收集 -> 预处理 -> 特征工程 -> 模型选择 -> 训练 -> 评估 -> 部署。特征工程往往决定模型上限，需关注归一化与标准化处理。

KNN 算法实战

距离度量与预处理

KNN 的核心在于距离计算。常用欧氏距离，但需注意量纲影响。对于小数据集，归一化（Min-Max）适用；大数据集更推荐使用标准化（Z-Score），因其对异常值不敏感。

from sklearn.preprocessing import StandardScaler, MinMaxScaler
# 标准化示例
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

鸢尾花案例

使用 Iris 数据集进行演示。切分训练集与测试集后，评估模型性能。注意交叉验证与网格搜索在参数调优中的作用。

手写数字识别 Bug 修复

在实现手写数字识别时，若预测结果异常，常见原因包括随机种子设置不一致或数据预处理步骤遗漏。建议统一 random_state 并检查是否保留了必要的缩放步骤（如 /255）。

线性回归

原理与公式修正

线性回归旨在拟合 $y = wx + b$。正规方程法直接求解，梯度下降法迭代优化。注意梯度下降的正确公式为： $$\theta_{new} = \theta_{old} - \alpha \cdot \nabla J(\theta)$$ 而非简单的损失函数值相减。

损失函数与正则化

均方误差（MSE）是常用损失函数。为防止过拟合，引入 L1（Lasso）和 L2（Ridge）正则化。L2 惩罚系数过大可能导致欠拟合，需根据 SSE 曲线调整。

银行信贷案例

应用梯度下降法解决信贷风险评估问题。对比不同评估指标（R²、MAE）以衡量模型表现。

逻辑回归

概率与条件公式

逻辑回归本质是分类。纠正一个常见误区：条件概率公式应为 $P(B|A) = P(AB)/P(A)$。在二分类中，输出概率映射到 [0, 1] 区间。

评估指标详解

混淆矩阵包含 TP、TN、FP、FN。基于此衍生出精确率（Precision）、召回率（Recall）和 F1 值。ROC 曲线与 AUC 指标用于综合评估分类器性能。

癌症预测案例

利用逻辑回归分析医疗数据，预测患病风险。重点关注样本不平衡时的评估策略。

决策树

熵与信息增益

信息熵衡量数据混乱程度。ID3 算法使用信息增益，C4.5 使用信息增益率以减少偏向多值特征。CART 树则基于基尼指数。

机器学习核心算法实战笔记：从 KNN 到集成学习

机器学习概述

AI、ML 与 DL 的关系

基于规则与模型的区别

应用领域与发展史

核心名词与算法分类

建模流程与特征工程

KNN 算法实战

距离度量与预处理

鸢尾花案例

手写数字识别 Bug 修复

线性回归

原理与公式修正

损失函数与正则化

银行信贷案例

逻辑回归

概率与条件公式

评估指标详解

癌症预测案例

决策树

熵与信息增益

更多推荐文章

相关免费在线工具

CART 与剪枝

泰坦尼克号案例

集成学习

Bagging 与 Boosting

XGBoost 与 GBDT

聚类算法

KMeans 与评估

数据挖掘实战项目

电力负荷预测

特征工程补充

模型预测模块

总结

更多推荐文章

相关免费在线工具

机器学习核心算法实战笔记：从 KNN 到集成学习

机器学习概述

AI、ML 与 DL 的关系

基于规则与模型的区别

应用领域与发展史

核心名词与算法分类

建模流程与特征工程

KNN 算法实战

距离度量与预处理

鸢尾花案例

手写数字识别 Bug 修复

线性回归

原理与公式修正

损失函数与正则化

银行信贷案例

逻辑回归

概率与条件公式

评估指标详解

癌症预测案例

决策树

熵与信息增益

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

CART 与剪枝

泰坦尼克号案例

集成学习

Bagging 与 Boosting

XGBoost 与 GBDT

聚类算法

KMeans 与评估

数据挖掘实战项目

电力负荷预测

特征工程补充

模型预测模块

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具