部署一个自己的大模型,进行本地或云端的测试与应用开发,是许多技术同学的目标。常见的顾虑包括硬件成本过高或官方部署文档过于简略导致环境配置困难。本文分享 ChatGLM3-6B 的本地及云服务器部署经验,涵盖 API 调用与 WebUI 使用。
ChatGLM3-6B 简介
本次部署使用的模型为 ChatGLM3-6B,由清华智谱研发并开源。该模型基于 GLM(Gated Linear Units with Memory)架构,拥有 60 亿参数量,在对话理解与生成方面表现优异。它支持中英双语对话、函数调用以及代码解释执行,允许开发者通过 API 拓展应用场景。此外,模型支持微调与量化,可在消费级显卡甚至 CPU 上运行。
效果展示
模型具备工具调用能力,能处理上下文信息。

模型具备绘图能力,可生成图像。

部分场景下模型表现仍有优化空间,提示词工程对效果影响较大。

多模态识别能力尚在发展中。

云环境部署
以 AutoDL 为例,ChatGLM3-6B 需要 13G 以上显存,推荐 RTX4090、RTX3090 等规格。
使用现有镜像
创建容器实例时选择'社区镜像',输入 yinghuoai,选择 ChatGLM3 最新镜像。开机后点击 JupyterLab 即可使用。镜像包含启动 WebUI 和 API 服务器的 Notebook。
手动安装
选择基础镜像 Miniconda -> conda3 -> Python 3.10 (ubuntu22.04) -> Cuda11.8。
- 网络加速:
source /etc/network_turbo
- 克隆代码:
git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3
- 创建虚拟环境:
conda create -n chatglm3-6b =.
source activate chatglm3-6b

