ChatGLM3-6B 大模型本地及云端部署与使用指南

部署一个自己的大模型，进行开发测试，可能是很多技术同学想做但又迟迟没下手的事情。原因可能是成本较高，需要高性能显卡，或者官方部署说明过于简单，安装时容易遇到各种兼容性问题。本文分享安装部署经验，包括本地和租用云服务器的方式，以及如何通过 API 调用大模型开发 AI 应用。

ChatGLM3-6B 简介

本次部署使用的模型是 ChatGLM3-6B，这是清华智谱研发并开源的高性能中英双语对话语言模型。它凭借创新的 GLM（Gated Linear Units with Memory）架构及庞大的 60 亿参数量，在对话理解与生成能力上表现卓越。

ChatGLM3-6B 能够处理复杂的跨语言对话场景，实现流畅的人机互动，还具备函数调用以及代码解释执行的能力。开发者可以通过 API 调用，让模型执行特定任务或编写、解析简单的代码片段。此外，支持对预训练模型进行定制化微调，也能对模型进行量化，使用较低的数字精度来表示权重，使得模型可以运行在消费级显卡甚至 CPU 上。

云环境部署

这里以 AutoDL 为例。AutoDL 上的 GPU 实例价格比较公道，ChatGLM3-6B 需要 13G 以上的显存，可以选择 RTX4090、RTX3090、RTX3080*2、A5000 等 GPU 规格。

提供两种方法：一是直接使用已创建好的镜像，二是自己从基础镜像一步步安装。

使用现有镜像

创建容器实例时镜像选择'社区镜像'，输入 yinghuoai，选择 ChatGLM3 的最新镜像。

容器实例开机成功后，点击对应实例的 JupyterLab 就能开始使用了。这个镜像包含三个 Notebook，方便我们启动 WebUI 服务器和 API 服务器，并进行相关的测试。

自己手动安装

创建容器实例时选择一个基础镜像 Miniconda -> conda3 -> Python 3.10 (ubuntu22.04) -> Cuda11.8。

容器实例开机完毕后，点击对应实例的 JupyterLab 进入 Web 管理界面。在'启动页'这里点击'终端'，进入命令窗口。

首先需要设置下网络，用以加速访问 Github。这是 AutoDL 实例才能使用的，本地无效。

source /etc/network_turbo

然后需要把代码下载到本地，使用 Git 即可。

git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3

创建一个 Python 的虚拟环境，这样方便隔离不同项目对 Python 环境的不同要求。这里使用 source activate 激活虚拟环境，很多文章中是 conda activate，这和 conda 的版本有关系，AutoDL 中的版本不支持 conda activate。

conda create -n chatglm3-6b python=3.10.8 
source activate chatglm3-6b

然后使用 uv 安装依赖的程序包。为什么用 uv？因为 requirements 中很多包的版本要求都是 >=，直接使用 pip 的时候会安装最新的版本，最新的版本往往和开发者使用的版本不同，这会导致一些兼容问题，所以最好就是 == 的那个版本，这个版本能用，而且一般就是开发者使用的版本。

pip install uv
uv pip install --resolution=lowest-direct -r requirements.txt

然后我们还要下载大模型文件，这里从 AutoDL 的模型库中下载，速度比较快。使用 AutoDL 提供的一个下载工具进行下载。下载目标目录是 /root/autodl-tmp，会自动在这个目录中创建一个名为 chatglm3-6b 的子目录，并保存这些文件。

pip install codewithgpu
cg down xxxiu/chatglm3-6b/config.json -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/configuration_chatglm.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/gitattributes -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model.safetensors.index.json -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/MODEL_LICENSE -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00001-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00002-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00003-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00004-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00005-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00006-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/model-00007-of-00007.safetensors -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/modeling_chatglm.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/pytorch_model.bin.index.json -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/quantization.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/README.md -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/tokenization_chatglm.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/tokenizer.model -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/tokenizer_config.json -t /root/autodl-tmp

from openai import OpenAI import json import requests import time # 获取天气的方法 def get_city_weather(param): city = json.loads(param)["city"] r = requests.get(f"https://wttr.in/{city}?format=j1") data = r.json()["current_condition"] #print(json.dumps(data)) temperature = data[0]['temp_C'] humidity= data[0]['humidity'] text = data[0]['weatherDesc'][0]["value"] return "当前天气："+text+"，温度："+temperature+ "℃，湿度："+humidity+"%" # 天气插件的定义 weather_tool = { "type": "function", "function": { "name": "get_city_weather", "description": "获取某个城市的天气", "parameters": { "type": "object", "properties": { "city": { "type": "string", "description": "城市名称", }, }, "required": ["city"], }, } } # 创建 OpenAI 客户端，获取 API Key 请看文章最后 client = OpenAI(api_key='no-need-key', base_url="http://127.0.0.1:6006/v1") # 定义请求 GPT 的通用方法 def create_completion(): return client.chat.completions.create( messages=messages, model='chatglm3-6b', stream=False, tool_choice="auto", tools=[weather_tool] ) # 我的三个问题 questions = ["请问上海天气怎么样？","请问广州天气怎么样？","成都呢？","北京呢？"] # 聊天上下文，初始为空 messages=[] print("---GLM 天气插件演示--- ") # 遍历询问我的问题 for question in questions: # 将问题添加到上下文中 messages.append({ "role": "user", "content": question, }) print("路人甲：",question) # 请求 GPT，并拿到响应 response_message = create_completion().choices[0].message # 把响应添加到聊天上下文中 messages.append(response_message) #print(response_message) # 根据插件命中情况，执行插件逻辑 if response_message.function_call is not None: function_call = response_message.function_call # 追加插件生成的天气内容到聊天上下文 weather_info = get_city_weather(function_call.arguments) #print(weather_info) messages.append({ "role": "function", "content": weather_info, "name": function_call.name }) # 再次发起聊天 second_chat_completion = create_completion() gpt_output = second_chat_completion.choices[0].message.content # 打印 GPT 合成的天气内容 print("GLM：",gpt_output) time.sleep(0.2) # 将 GPT 的回答也追加到上下文中 messages.append({ "role": "assistant", "content": gpt_output, }) else: print("GLM：",response_message.content)

ChatGLM3-6B 大模型本地及云端部署与使用指南