PyTorch 模型训练完整工作流程详解 | 极客日志

PythonAI算法

PyTorch 模型训练完整工作流程详解

综述由AI生成基于 PyTorch 进行机器学习模型训练的完整流程。涵盖数据准备与划分、模型构建（继承 nn.Module）、损失函数与优化器选择、训练循环实现、推理模式设置以及模型持久化保存与加载。通过线性回归示例演示了从数据生成到参数优化的全过程，并提供了完整的可运行代码结构，帮助开发者掌握 PyTorch 核心工作流及最佳实践。

PgDevote发布于 2025/2/7更新于 2026/5/2824 浏览

PyTorch 模型训练完整工作流程详解

机器学习和深度学习的本质是从历史数据中发现一般模式，然后用发现的模式预测未来的数据。在本文中，我们将以一个学习直线方程的例子说明用 PyTorch 训练模型的工作流程。

1. 准备和加载数据

机器学习中的数据含义很广泛：文本、图像、视频、音频、表格、甚至是蛋白质结构都是数据。

创建数据集

我们创建一个线性回归数据集来演示流程：

import torch

# 设置随机种子以保证结果可复现
torch.manual_seed(42)

# 生成 50 个样本的 X 数据 (范围 0-1)
x = torch.rand(50, 1)
# 生成对应的 y 数据：y = 3x + 2 + noise
true_w = 3.0
true_b = 2.0
noise = torch.randn(50, 1) * 0.1
y = x * true_w + true_b + noise

划分数据集

机器学习最重要的一步是将你的数据集分成训练集、验证集（有时不需要）和测试集。

训练集：占原始数据集的 60% ~ 80%，模型从训练集中学习一般模式。
验证集：占原始数据集的 10% ~ 20%，我们可以利用验证集调整模型超参数。
测试集：占原始数据集的 10% ~ 20%，模型训练完之后，最终测试模型的性能。

这里，我们仅将数据集分为训练集和测试集。在实际工作中，数据集在项目开始之前就被分好了，我们可以多次使用训练集，但是只能在最终训练完后，使用一次测试集测试模型的最终泛化性能。

from sklearn.model_selection import train_test_split

# 将数据划分为训练集和测试集 (8:2)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

print(f"训练集样本数：{len(x_train)}")
print(f"测试集样本数：{len(x_test)}")

2. 建立模型

现在我们要建立一个可以根据输入数据预测输出数据的模型。

PyTorch 基础模块

我们首先看一下一些 PyTorch 基础模块，它们几乎都来自 torch.nn 模块：

torch.nn：包含计算图的所有构建模块。
torch.nn.Parameter：存储可与 nn.Module 一起使用的张量参数。如果 requires_grad=True 则自动计算梯度。

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import torch.nn as nn

class LinearModel(nn.Module):
    def __init__(self, input_dim, output_dim):
        super().__init__()
        # 定义线性层，等价于 y = wx + b
        self.linear = nn.Linear(input_dim, output_dim)

    def forward(self, x):
        return self.linear(x)

# 实例化模型
model = LinearModel(input_dim=1, output_dim=1)

# 查看模型参数
for name, param in model.named_parameters():
    print(f"{name}: {param.shape}, requires_grad={param.requires_grad}")

with torch.inference_mode():
    y_preds = model(x_test)

print("初始预测值:", y_preds[:5])
print("真实值:", y_test[:5])

# 定义损失函数
loss_fn = nn.L1Loss()

# 定义优化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

epochs = 100

for epoch in range(epochs):
    # 1. 前向传播
    y_pred = model(x_train)
    
    # 2. 计算损失
    loss = loss_fn(y_pred, y_train)
    
    # 3. 梯度清零
    optimizer.zero_grad()
    
    # 4. 反向传播
    loss.backward()
    
    # 5. 更新参数
    optimizer.step()
    
    if (epoch + 1) % 10 == 0:
        print(f"Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}")

model.eval()
with torch.inference_mode():
    final_preds = model(x_test)

print("最终预测值:", final_preds[:5].detach())
print("真实值:", y_test[:5])

# 保存模型参数
torch.save(model.state_dict(), 'linear_model.pth')
print("模型已保存")

# 重新实例化模型
new_model = LinearModel(input_dim=1, output_dim=1)

# 加载参数
new_model.load_state_dict(torch.load('linear_model.pth'))
new_model.eval()

# 验证一致性
with torch.inference_mode():
    loaded_preds = new_model(x_test)

print("加载后预测值:", loaded_preds[:5].detach())
print("原预测值:", final_preds[:5].detach())

import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.model_selection import train_test_split

# 1. 确定当前可用的设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 2. 创建数据集
torch.manual_seed(42)
x = torch.rand(50, 1).to(device)
y = x * 3.0 + 2.0 + torch.randn(50, 1).to(device) * 0.1

# 3. 划分数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 4. 建立模型
class LinearModel(nn.Module):
    def __init__(self, input_dim, output_dim):
        super().__init__()
        self.linear = nn.Linear(input_dim, output_dim)
    def forward(self, x):
        return self.linear(x)

model = LinearModel(input_dim=1, output_dim=1).to(device)

# 5. 定义损失函数和优化器
loss_fn = nn.L1Loss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 6. 训练循环
epochs = 1000
for epoch in range(epochs):
    model.train()
    y_pred = model(x_train)
    loss = loss_fn(y_pred, y_train)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (epoch + 1) % 100 == 0:
        print(f"Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}")

# 7. 测试与预测
model.eval()
with torch.inference_mode():
    test_pred = model(x_test)
    print(f"Test Loss: {loss_fn(test_pred, y_test).item():.4f}")

# 8. 保存模型
torch.save(model.state_dict(), 'final_model.pth')
print("Training and Saving Complete.")

PyTorch 模型训练完整工作流程详解

PyTorch 模型训练完整工作流程详解

1. 准备和加载数据

创建数据集

划分数据集

2. 建立模型

PyTorch 基础模块

更多推荐文章

相关免费在线工具

定义模型类

3. 使用推理模式进行预测

4. 训练模型

损失函数和优化器

创建训练循环

5. 用训练好的模型进行预测

6. 保存和加载 PyTorch 模型

保存模型

加载模型

7. 完整示例整合

总结

更多推荐文章

相关免费在线工具

PyTorch 模型训练完整工作流程详解

PyTorch 模型训练完整工作流程详解

1. 准备和加载数据

创建数据集

划分数据集

2. 建立模型

PyTorch 基础模块

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

定义模型类

3. 使用推理模式进行预测

4. 训练模型

损失函数和优化器

创建训练循环

5. 用训练好的模型进行预测

6. 保存和加载 PyTorch 模型

保存模型

加载模型

7. 完整示例整合

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具