模型训练六大步骤详解
1. 数据预处理:清洗和整理数据
目标: 将原始、杂乱、非结构化的数据,转化为统一、干净、可输入模型的张量格式。
核心任务:
| 任务 | 方法示例 |
|---|---|
| 清洗 | 去除噪声、处理缺失值、纠正错误标签 |
| 归一化/标准化 | Min-Max Scaling, Z-score |
| 编码 | One-Hot 编码、Label Encoding、Embedding |
| 分词与向量化 | Tokenization, TF-IDF, Word2Vec(NLP) |
| 图像处理 | Resize, Crop, Normalize, Augmentation |
工具: Pandas, NumPy, OpenCV, Transformers (Hugging Face)
关键点:
'垃圾进,垃圾出'(Garbage In, Garbage Out) 预处理质量直接决定模型上限。
2. 数据选择:构建训练/验证/测试集
目标: 将处理后的数据划分为不同用途的子集,确保训练有效、评估可靠。
核心任务:
| 任务 | 说明 |
|---|---|
| 划分数据集 | 训练集(70%)、验证集(15%)、测试集(15%) |
| 采样策略 | 随机采样、分层采样(Stratified Sampling)、过采样/欠采样(处理类别不平衡) |
| 批处理(Batching) | DataLoader 构建 mini-batch,支持高效训练 |
| 数据增强(Augmentation) | 图像旋转、文本同义替换,提升泛化能力 |
工具:
Scikit-learn (train_test_split)、PyTorch DataLoader、TensorFlow Dataset
关键点:
验证集用于调参与早停(Early Stopping);测试集只能用一次,防止信息泄露。
3. 神经网络:前向传播,预测输出
目标: 输入数据 x 经过神经网络 f_θ,输出预测 ŷ = f_θ(x)。
数学形式: 其中每层包含:线性变换 + 非线性激活函数(如 ReLU)。
典型操作:
- 向量乘法(MatMul)
- 激活函数(Sigmoid, Tanh, ReLU)
- 归一化(BatchNorm, LayerNorm)
- 注意力机制(Transformer)
工具: PyTorch 、TensorFlow Keras



其中 g_t 是优化器计算的更新方向(可能含动量、自适应学习率等)。