国产开源大模型 ChatGLM3-6B 部署与使用指南 | 极客日志

PythonAI算法

国产开源大模型 ChatGLM3-6B 部署与使用指南

综述由AI生成国产开源大模型 ChatGLM3-6B 的部署流程与使用方法。内容涵盖本地及云端（AutoDL）环境的搭建步骤，包括 Python 环境配置、依赖安装、模型文件下载及测试验证。同时讲解了如何通过 WebUI 界面进行对话、插件调用及代码解释器操作，并提供了基于 OpenAI 规范的 API 调用示例，包含简单的聊天程序与天气插件集成代码。最后补充了量化部署、并发控制及监控等性能优化建议，帮助开发者快速上手私有化大模型应用开发。

赛博行者发布于 2025/2/7更新于 2026/6/223 浏览

部署一个自己的大模型，进行本地或云端的测试与应用开发，是许多技术同学的目标。常见的顾虑包括硬件成本过高或官方部署文档过于简略导致环境配置困难。本文分享 ChatGLM3-6B 的本地及云服务器部署经验，涵盖 API 调用与 WebUI 使用。

ChatGLM3-6B 简介

本次部署使用的模型为 ChatGLM3-6B，由清华智谱研发并开源。该模型基于 GLM（Gated Linear Units with Memory）架构，拥有 60 亿参数量，在对话理解与生成方面表现优异。它支持中英双语对话、函数调用以及代码解释执行，允许开发者通过 API 拓展应用场景。此外，模型支持微调与量化，可在消费级显卡甚至 CPU 上运行。

效果展示

模型具备工具调用能力，能处理上下文信息。

ChatGLM3-6B 工具调用效果

模型具备绘图能力，可生成图像。

ChatGLM3-6B 绘图效果

部分场景下模型表现仍有优化空间，提示词工程对效果影响较大。

ChatGLM3-6B 异常交互示例

多模态识别能力尚在发展中。

ChatGLM3-6B 图像识别示例

云环境部署

以 AutoDL 为例，ChatGLM3-6B 需要 13G 以上显存，推荐 RTX4090、RTX3090 等规格。

使用现有镜像

创建容器实例时选择'社区镜像'，输入 yinghuoai，选择 ChatGLM3 最新镜像。开机后点击 JupyterLab 即可使用。镜像包含启动 WebUI 和 API 服务器的 Notebook。

手动安装

选择基础镜像 Miniconda -> conda3 -> Python 3.10 (ubuntu22.04) -> Cuda11.8。

网络加速：

source /etc/network_turbo

克隆代码：

git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3

创建虚拟环境：

conda create -n chatglm3-6b =. 
source activate chatglm3-6b

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install uv
uv pip install --resolution=lowest-direct -r requirements.txt

pip install codewithgpu
cg down xxxiu/chatglm3-6b/config.json -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/configuration_chatglm.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/modeling_chatglm.py -t /root/autodl-tmp
cg down xxxiu/chatglm3-6b/tokenizer.model -t /root/autodl-tmp
# ... 其他分片文件 ...

cd C:\
git clone https://github.com/THUDM/ChatGLM3
cd ChatGLM3

conda create -n chatglm3-6b python=3.10.8 
conda activate chatglm3-6b

conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install chardet

ipython kernel install --name chatglm3-6b --user

streamlit run composite_demo/main.py

sudo ssh -CNg -L 8501:127.0.0.1:8501 root@connect.westb.seetacloud.com -p 12357

@register_tool
def get_weather(
    city_name: Annotated[str, 'The name of the city to be queried', True],
) -> str:
    """
    Get the weather for `city_name` in the following week
    """
    ...

pip install --upgrade openai httpx[socks]

from openai import OpenAI

client = OpenAI(api_key='not-need-key',base_url="http://127.0.0.1:6006/v1")
stream = client.chat.completions.create(
    messages=[{
        "role": "system", "content": "你是一名数学老师，从事小学数学教育 30 年，精通设计各种数学考试题"
    },{
        "role": "user", "content": "请给我出 10 道一年级的计算题。"
    }],
    model='chatglm3-6b',
    max_tokens=1024,
    top_p=0.3,
    response_format={ "type": "json_object" },
    stream=True
)

for chunk in stream:
    msg = chunk.choices[0].delta.content
    if msg is not None:
        print(msg, end='')

from openai import OpenAI
import json
import requests

def get_city_weather(param):
    city = json.loads(param)["city"]
    r = requests.get(f"https://wttr.in/{city}?format=j1")
    data = r.json()["current_condition"]
    temperature = data[0]['temp_C']
    humidity= data[0]['humidity']
    text = data[0]['weatherDesc'][0]["value"]
    return "当前天气："+text+"，温度："+temperature+ "℃，湿度："+humidity+"%"

weather_tool = {
    "type": "function",
    "function": {
        "name": "get_city_weather",
        "description": "获取某个城市的天气",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {
                    "type": "string",
                    "description": "城市名称",
                },
            },
            "required": ["city"],
        },
    }
}

client = OpenAI(api_key='no-need-key', base_url="http://127.0.0.1:6006/v1")
messages=[]
questions = ["请问上海天气怎么样？","请问广州天气怎么样？"]

for question in questions:
    messages.append({"role": "user", "content": question})
    response_message = client.chat.completions.create(
        messages=messages,
        model='chatglm3-6b',
        stream=False,
        tool_choice="auto",
        tools=[weather_tool]
    ).choices[0].message
    messages.append(response_message)
    
    if response_message.function_call is not None:
        function_call = response_message.function_call
        weather_info = get_city_weather(function_call.arguments)
        messages.append({
            "role": "function",
            "content": weather_info,
            "name": function_call.name
        })
        second_completion = client.chat.completions.create(messages=messages, model='chatglm3-6b')
        print(second_completion.choices[0].message.content)

国产开源大模型 ChatGLM3-6B 部署与使用指南

ChatGLM3-6B 简介

效果展示

云环境部署

使用现有镜像

手动安装

更多推荐文章

相关免费在线工具

本地环境安装

使用 WebUI 体验

启动 WebUI 服务

功能说明

使用 API 开发应用

启动 API 服务

调用 API 服务

部署优化建议

更多推荐文章

相关免费在线工具

国产开源大模型 ChatGLM3-6B 部署与使用指南

ChatGLM3-6B 简介

效果展示

云环境部署

使用现有镜像

手动安装

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

本地环境安装

使用 WebUI 体验

启动 WebUI 服务

功能说明

使用 API 开发应用

启动 API 服务

调用 API 服务

部署优化建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具