VSCode 调试大模型训练代码的三种高效方法 | 极客日志

PythonAI算法

VSCode 调试大模型训练代码的三种高效方法

VSCode 调试大模型训练代码可通过直接启动、端口监听及命令行参数三种方式实现。直接启动法配合 torch.distributed.run 支持多卡且配置简单；端口监听法需修改代码注入 debugpy；命令行法无需改码但仅限单卡。推荐优先使用直接启动法，注意处理环境变量及端口冲突问题，可显著提升调试效率。此外，还需掌握条件断点、变量监视及常见报错排查技巧，以确保训练过程稳定可控。

moshang发布于 2025/2/7更新于 2026/6/217 浏览

VSCode 调试大模型训练代码的三种高效方法

在开发和调试大模型训练代码时，使用 print 语句进行调试往往效率低下且容易遗漏重要信息。本文将介绍三种使用 VSCode 进行交互式 debug 的方法，让你的调试过程更加高效和精确。

准备工作

在开始之前，请确保完成以下基础配置：

安装 VSCode：确保安装了最新版本的 Visual Studio Code。
Python 扩展：在 VSCode 中安装 Python 插件（由 Microsoft 提供），这是调试功能的基础。
虚拟环境：建议创建独立的 Conda 或 Virtualenv 环境，避免依赖冲突。
断点设置：了解基本的断点设置方法（在代码行号左侧点击即可设置断点）。
依赖库：确保已安装 debugpy 库，通常包含在 python 包中，若未安装可执行 pip install debugpy。

方法一：直接启动调试

这是最简单且功能完整的方法，支持单卡和多卡训练场景，推荐优先使用。

步骤一：创建调试配置

点击 VSCode 左侧的"运行和调试"图标（或按下 Ctrl+Shift+D）。
点击"创建 launch.json 文件"。
在弹出的选项中，选择"Python Debugger"。
再选择"Python 文件"。

步骤二：配置 torch.distributed.run

对于多卡训练，通常使用 torch.distributed.run (旧版为 torchrun)。为了简化配置过程，你可以参考 LLaMA-Factory 等开源项目的最佳实践。

你需要将原始的训练命令转换为 VSCode 可识别的参数列表。一个典型的多卡训练配置如下：

{
    "version": "0.2.0",
    "configurations": [
        {
            "name": "debug.llamafactory.cn",
            "type": "debugpy",
            "request": "launch",
            "module": "torch.distributed.run"

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

import os
import debugpy

# 只在 rank 0 进程中启动调试器
if int(os.environ.get('LOCAL_RANK', '0')) == 0:
    debugpy.listen(("localhost", 5678))
    print("⏳ 等待调试器附加...")
    debugpy.wait_for_client()
    print("🚀 调试器已附加！继续执行...")

{
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python Debugger: Attach",
            "type": "debugpy",
            "request": "attach",
            "connect": {
                "host": "localhost",
                "port": 5678
            },
            "justMyCode": false
        }
    ]
}

正常启动训练脚本，例如：

CUDA_VISIBLE_DEVICES=6,7 llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml

当看到"⏳ 等待调试器附加…"时，在 VSCode 中选择"Python Debugger: Attach"。
点击开始调试按钮。

CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 \
    --master_port 23456 \
    -m debugpy \
    --listen 5678 \
    --wait-for-client \
    src/train.py \
    examples/train_lora/llama3_lora_sft.yaml

VSCode 调试大模型训练代码的三种高效方法

VSCode 调试大模型训练代码的三种高效方法

准备工作

方法一：直接启动调试

步骤一：创建调试配置

步骤二：配置 torch.distributed.run

更多推荐文章

相关免费在线工具

步骤三：开始调试

方法二：监听端口调试

步骤一：添加调试代码

步骤二：配置 launch.json

步骤三：启动调试

方法三：命令行参数调试

步骤一：配置 launch.json

步骤二：修改启动命令

步骤三：启动调试

调试技巧与进阶

常见问题与解决方案

1. 端口被占用错误

2. 多卡训练时部分进程崩溃

3. 断点无法命中

4. 内存泄漏检测

注意事项

总结

更多推荐文章

相关免费在线工具

VSCode 调试大模型训练代码的三种高效方法

VSCode 调试大模型训练代码的三种高效方法

准备工作

方法一：直接启动调试

步骤一：创建调试配置

步骤二：配置 torch.distributed.run

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

步骤三：开始调试

方法二：监听端口调试

步骤一：添加调试代码

步骤二：配置 launch.json

步骤三：启动调试

方法三：命令行参数调试

步骤一：配置 launch.json

步骤二：修改启动命令

步骤三：启动调试

调试技巧与进阶

常见问题与解决方案

1. 端口被占用错误

2. 多卡训练时部分进程崩溃

3. 断点无法命中

4. 内存泄漏检测

注意事项

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具