1 算法理论基础
1.1 网格搜索参数优化算法
1、网格搜索是什么?
一句话概括:
'网格搜索就是把所有设定好的超参数组合排成一个'网格',逐个尝试,通过评估结果找到表现最佳的那一组参数。' 就像在一个二维或多维坐标空间里,把所有候选参数都排列出来,然后把每个点都跑一遍,最终选出模型表现最优的位置。
2、它的核心原则:全面、稳定、逐点验证
网格搜索的理念非常直观:
- 先定义每个参数可能的取值范围
- 再把这些取值组合成一个完整网格
- 然后对每个组合进行模型训练与验证
- 最后选择最优结果对应的参数 这是一种系统化、无遗漏的搜索方式。它不会遗漏,也不会偏向,它用最直接的方式告诉你:哪个参数组合最适合你的模型。
3、为什么网格搜索常被用作调参基础流程?
网格搜索的价值主要体现在几个方面:
✔ 1. 结构清晰、可控性强
你可以完全决定参数候选集,调参过程完全透明。
✔ 2. 适用于小范围、精细化的参数探索
特别适合探索学习率、树深、正则项等关键参数的小步长变化。
✔ 3. 方便结合交叉验证
与 Cross-Validation 结合后,能够获得稳定、可靠的参数评估结果。
✔ 4. 结果可复现、可追踪
每个组合都被尝试过,调参过程完整记录,适合科研工作。
4、典型应用场景
网格搜索广泛应用于:
- XGBoost / LightGBM / CatBoost 的关键参数精调
- SVM、随机森林、岭回归等模型的标准调参
- 小规模搜索空间的系统验证
- 科研论文中要求严谨、可复现的实验设计
在你的任务里,网格搜索非常适合用于关键参数的局部精调,确保模型在最佳点附近充分探索。
5. 程序能画非常直观的可视化
该图展示 GridSearchCV 调参过程中各超参数与 RMSE 的相关性重要性,其中 learning_rate、reg_alpha 和 n_estimators 影响最明显,可用于识别关键参数并指导后续调参方向。

2 SHAP 理论基础
上述三条目录的基本原理已在前置推文中做过详细介绍,需要学习了解的请查阅相关文档。
本程序 SHAP 带的图包括:





并将训练集和测试集的精度评估指标保存到 metrics.mat 矩阵中。共两行,第一行代表训练集的,第二行代表测试集的;共 7 个精度评估指标,分别代表 R, R2, ME, MAE, MAPE, RMSE 以及样本数量。
保存的 regression_result.mat 数据中分别保存了名字为 Y_train、y_pred_train、y_test、y_pred_test 的矩阵向量。
同样的针对大家各自的数据训练出的模型结构也保存在 model.json 中,方便再一次调用。
调用的程序我在程序中注释了,如下