VSCode 调试大模型训练代码的三种高效方法
在开发和调试大模型训练代码时,使用 print 语句进行调试往往效率低下且容易遗漏重要信息。本文将介绍三种使用 VSCode 进行交互式 debug 的方法,让你的调试过程更加高效和精确。
准备工作
在开始之前,请确保完成以下基础配置:
- 安装 VSCode:确保安装了最新版本的 Visual Studio Code。
- Python 扩展:在 VSCode 中安装 Python 插件(由 Microsoft 提供),这是调试功能的基础。
- 虚拟环境:建议创建独立的 Conda 或 Virtualenv 环境,避免依赖冲突。
- 断点设置:了解基本的断点设置方法(在代码行号左侧点击即可设置断点)。
- 依赖库:确保已安装
debugpy库,通常包含在python包中,若未安装可执行pip install debugpy。
方法一:直接启动调试
这是最简单且功能完整的方法,支持单卡和多卡训练场景,推荐优先使用。
步骤一:创建调试配置
- 点击 VSCode 左侧的"运行和调试"图标(或按下
Ctrl+Shift+D)。 - 点击"创建 launch.json 文件"。
- 在弹出的选项中,选择"Python Debugger"。
- 再选择"Python 文件"。
步骤二:配置 torch.distributed.run
对于多卡训练,通常使用 torch.distributed.run (旧版为 torchrun)。为了简化配置过程,你可以参考 LLaMA-Factory 等开源项目的最佳实践。
你需要将原始的训练命令转换为 VSCode 可识别的参数列表。一个典型的多卡训练配置如下:
{
"version": "0.2.0",
"configurations": [
{
"name": "debug.llamafactory.cn",
"type": "debugpy",
"request": "launch",
"module": "torch.distributed.run"


