国产大语言模型 ChatGLM3 本地部署、使用及功能扩展指南 | 极客日志

PythonAI算法

国产大语言模型 ChatGLM3 本地部署、使用及功能扩展指南

综述由AI生成国产大语言模型 ChatGLM3 的本地化部署全流程。涵盖源码获取、Conda 环境配置、PyTorch 依赖安装及 CUDA 版本匹配。重点讲解了显存优化方案，包括 FP16 与 4-bit 量化的区别与应用场景。提供了基于 Gradio 和 Streamlit 的 Web Demo 启动方法，并针对 GPU 识别失败等常见问题给出排查步骤。此外，还阐述了 OpenAI 兼容 API 的搭建方式及自定义工具扩展（Function Calling）的实现逻辑，帮助用户在本地高效运行并集成 ChatGLM3 应用。

编程诗人发布于 2025/2/6更新于 2026/6/318 浏览

1. 概述

ChatGLM3-6B 是由智谱 AI 推出的开源大语言模型，支持多轮对话、文本生成及工具调用等功能。本文详细介绍如何在本地环境搭建 ChatGLM3，包括源码下载、依赖安装、显存优化、Web Demo 启动以及 OpenAI 兼容 API 服务的部署。

2. 环境准备与源码下载

2.1 硬件要求

建议配备 NVIDIA 显卡，显存至少 8GB（推荐 12GB 以上）。若显存小于 8GB，建议使用量化版本（4-bit）运行。

2.2 获取源码

通过 ModelScope 或 GitHub 下载 ChatGLM3 源码。

git clone https://gitee.com/mirrors/ChatGLM3.git

ModelScope 是国内镜像，下载速度通常较快。

3. 环境安装

3.1 创建 Conda 环境

推荐使用 Python 3.10 或更高版本。新建虚拟环境并激活：

conda create -n chatglm3-demo python=3.11
conda activate chatglm3-demo

3.2 安装依赖

进入项目目录，修改 requirements.txt 以指定明确的 PyTorch 版本，确保 CUDA 版本匹配本机驱动。

cd ChatGLM3-main
pip install -r requirements.txt

注意：如果默认依赖未指定 torch 版本，建议手动指定为 torch==2.1.0 或根据 CUDA 版本选择对应 wheel 包。

4. 模型加载与显存优化

4.1 默认加载

默认情况下，模型以 FP16 精度加载，约需 13GB 显存。

from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).half().cuda()
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)

4.2 量化加载（低显存适配）

对于显存受限的 GPU，可使用 4-bit 量化加载模型，显著降低显存占用且保持流畅生成。

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True).quantize(4).cuda()

量化后模型路径需调整至 THUDM/chatglm3-6b 相对目录下，避免重复下载。

5. Web Demo 启动

项目提供了基于 Gradio 和 Streamlit 的网页版交互界面。

5.1 Gradio Demo

python web_demo.py

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

pip install mdtex2html

streamlit run web_demo2.py

import torch
print(torch.cuda.is_available())
print(torch.__version__)

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

cd openai_api_demo
python openai_api.py

{
    "model": "chatglm3-6b",
    "messages": [
        {"role": "system", "content": "You are ChatGLM3."},
        {"role": "user", "content": "你好，给我讲一个故事"}
    ],
    "stream": false,
    "max_tokens": 100,
    "temperature": 0.8
}

def get_weather(city: str) -> str:
    # 实现查询逻辑
    return f"{city}的天气晴朗"

国产大语言模型 ChatGLM3 本地部署、使用及功能扩展指南

1. 概述

2. 环境准备与源码下载

2.1 硬件要求

2.2 获取源码

3. 环境安装

3.1 创建 Conda 环境

3.2 安装依赖

4. 模型加载与显存优化

4.1 默认加载

4.2 量化加载（低显存适配）

5. Web Demo 启动

5.1 Gradio Demo

更多推荐文章

相关免费在线工具

5.2 Streamlit Demo

6. 常见问题排查

6.1 GPU 未被识别

6.2 依赖冲突

7. OpenAI 兼容 API 服务

7.1 启动服务

7.2 请求示例

8. 自定义工具扩展 (Tool Use)

8.1 注册工具

8.2 启用工具

9. 总结

10. 进阶建议

更多推荐文章

相关免费在线工具

国产大语言模型 ChatGLM3 本地部署、使用及功能扩展指南

1. 概述

2. 环境准备与源码下载

2.1 硬件要求

2.2 获取源码

3. 环境安装

3.1 创建 Conda 环境

3.2 安装依赖

4. 模型加载与显存优化

4.1 默认加载

4.2 量化加载（低显存适配）

5. Web Demo 启动

5.1 Gradio Demo

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5.2 Streamlit Demo

6. 常见问题排查

6.1 GPU 未被识别

6.2 依赖冲突

7. OpenAI 兼容 API 服务

7.1 启动服务

7.2 请求示例

8. 自定义工具扩展 (Tool Use)

8.1 注册工具

8.2 启用工具

9. 总结

10. 进阶建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具