机器学习概述
AI、ML 与 DL 的关系
人工智能(AI)是广义概念,机器学习(ML)是其子集,深度学习(DL)则是机器学习的一种特殊形式。理解这三者的层级关系有助于构建清晰的知识体系。
基于规则与模型的区别
传统编程依赖人工编写规则,而机器学习通过数据训练模型自动发现规律。随着数据量增加,模型泛化能力通常优于硬编码规则。
应用领域与发展史
机器学习已广泛应用于推荐系统、图像识别、自然语言处理等领域。发展过程中经历了从感知机到神经网络,再到集成学习的演进。
核心名词与算法分类
- 监督学习:有标签数据,如回归、分类。
- 无监督学习:无标签数据,如聚类、降维。
- 半监督学习:少量标签 + 大量无标签。
建模流程与特征工程
标准流程包括:数据收集 -> 预处理 -> 特征工程 -> 模型选择 -> 训练 -> 评估 -> 部署。特征工程往往决定模型上限,需关注归一化与标准化处理。
KNN 算法实战
距离度量与预处理
KNN 的核心在于距离计算。常用欧氏距离,但需注意量纲影响。对于小数据集,归一化(Min-Max)适用;大数据集更推荐使用标准化(Z-Score),因其对异常值不敏感。
from sklearn.preprocessing import StandardScaler, MinMaxScaler
# 标准化示例
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)
鸢尾花案例
使用 Iris 数据集进行演示。切分训练集与测试集后,评估模型性能。注意交叉验证与网格搜索在参数调优中的作用。
手写数字识别 Bug 修复
在实现手写数字识别时,若预测结果异常,常见原因包括随机种子设置不一致或数据预处理步骤遗漏。建议统一 random_state 并检查是否保留了必要的缩放步骤(如 /255)。
线性回归
原理与公式修正
线性回归旨在拟合 $y = wx + b$。正规方程法直接求解,梯度下降法迭代优化。注意梯度下降的正确公式为: $$\theta_{new} = \theta_{old} - \alpha \cdot \nabla J(\theta)$$ 而非简单的损失函数值相减。
损失函数与正则化
均方误差(MSE)是常用损失函数。为防止过拟合,引入 L1(Lasso)和 L2(Ridge)正则化。L2 惩罚系数过大可能导致欠拟合,需根据 SSE 曲线调整。
银行信贷案例
应用梯度下降法解决信贷风险评估问题。对比不同评估指标(R²、MAE)以衡量模型表现。
逻辑回归
概率与条件公式
逻辑回归本质是分类。纠正一个常见误区:条件概率公式应为 $P(B|A) = P(AB)/P(A)$。在二分类中,输出概率映射到 [0, 1] 区间。
评估指标详解
混淆矩阵包含 TP、TN、FP、FN。基于此衍生出精确率(Precision)、召回率(Recall)和 F1 值。ROC 曲线与 AUC 指标用于综合评估分类器性能。
癌症预测案例
利用逻辑回归分析医疗数据,预测患病风险。重点关注样本不平衡时的评估策略。
决策树
熵与信息增益
信息熵衡量数据混乱程度。ID3 算法使用信息增益,C4.5 使用信息增益率以减少偏向多值特征。CART 树则基于基尼指数。


