环境准备:搭建可编辑的开发环境
在大模型应用日益普及的今天,如何快速、低成本地定制一个符合特定场景需求的语言模型,已经成为开发者和企业关注的核心问题。直接全参数微调动辄数十 GB 显存消耗,对大多数团队而言并不现实。而像 LoRA(Low-Rank Adaptation) 这样的高效微调技术,配合如 LLaMA-Factory 这类开箱即用的框架,正让'平民化'大模型定制成为可能。
本文将以 GLM-4-9B-Chat 为例,带你从零开始完成一次完整的 LoRA 微调流程——从环境配置、数据清洗到训练部署,最终得到一个可独立运行的专属模型。整个过程无需深入理解底层原理,也能在单卡 A10/A100 上顺利完成。
首先确保你的系统已安装 Python ≥ 3.10 和支持 CUDA 的 PyTorch 版本(推荐 torch==2.1.0+cu118 或更高)。考虑到国内网络环境,建议更换 pip 源以加速依赖下载:
python -m pip install --upgrade pip && pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
接着克隆并安装 LLaMA-Factory。这里的关键是使用 -e 参数进行'可编辑安装',这样后续若需调试源码或添加自定义组件也无需重新安装:
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
✅ 安装说明:
[torch,metrics]会自动拉取 Transformers、Datasets、Accelerate、Peft 等核心库,省去手动管理依赖的麻烦。
安装完成后执行以下命令验证是否成功:
llamafactory-cli --help
如果输出帮助信息,则说明环境已就绪。此时你已经拥有了一个功能完整的大模型微调平台。
模型获取:通过 ModelScope 下载 GLM-4-9B-Chat
GLM-4-9B-Chat 是智谱 AI 推出的高性能对话模型,具备优秀的多轮交互与指令遵循能力。由于其未公开托管于 Hugging Face,我们需通过 ModelScope 获取。
创建脚本 download_glm4.py:
from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download(
'ZhipuAI/glm-4-9b-chat',
cache_dir='/root/models', # 可根据实际路径修改
revision='master'
)
print(f"Model downloaded to: {model_dir}")
运行后开始下载,模型体积约 14GB,通常需要 10–20 分钟。完成后记录下完整路径,例如 /root/models/ZhipuAI/glm-4-9b-chat,后续配置中将多次引用该路径。
⚠️ 注意事项: - 需提前登录 ModelScope 账号并配置好认证密钥。 - 若提示权限错误,请检查是否已接受模型协议。

