国产大语言模型 ChatGLM3 本地部署与功能扩展指南 | 极客日志

PythonAI算法

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

综述由AI生成国产大语言模型 ChatGLM3 的本地部署流程。内容涵盖环境配置、源码与模型下载、依赖安装及显存优化方案。重点讲解了如何通过量化技术降低显存占用，以及 Gradio 和 Streamlit 两种 Web 演示模式的启动方法。此外，文章还说明了如何搭建 OpenAI 兼容 API 服务，实现第三方应用集成，并介绍了通过自定义 Tool 扩展模型功能的方法。最后提供了常见 GPU 识别问题排查及 API 参数调优指南，帮助开发者快速构建本地大模型应用。

咸鱼开飞机发布于 2025/2/6更新于 2026/6/218 浏览

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

1. 概述

ChatGLM3 是由智谱 AI 推出的一系列开源大语言模型。本文详细介绍如何在本地环境中搭建 ChatGLM3-6B 模型，配置运行环境，并通过 Web 界面、API 接口及自定义工具进行功能扩展。

2. 环境准备

2.1 硬件要求

显存：建议 8GB 以上。若显存小于 8GB，建议使用量化版本（4-bit）。
CUDA：需安装对应版本的 NVIDIA CUDA Toolkit。
Python：推荐 Python 3.10 或更高版本。

2.2 软件依赖

使用 Anaconda 管理虚拟环境，确保依赖隔离。

# 创建名为 chatglm3-demo 的 conda 环境
conda create -n chatglm3-demo python=3.11
conda activate chatglm3-demo

3. 源码与模型下载

3.1 获取源码

从 GitHub 或 ModelScope 克隆项目代码。

git clone https://github.com/THUDM/ChatGLM3.git
cd ChatGLM3-main

3.2 下载模型权重

推荐使用国内镜像源 ModelScope 加速下载。

# 进入模型目录
mkdir -p THUDM/chatglm3-6b
# 使用 git lfs 拉取模型文件

注意：如果显卡显存有限（如 8GB 以下），建议下载 chatglm3-6b 基础版并配合量化使用。

4. 安装依赖

修改 requirements.txt 以指定明确的 PyTorch 版本，避免 CUDA 版本不匹配。

# requirements.txt 示例
torch>=2.0
torchvision==0.15.0
torchaudio==2.0.0
transformers==4.30.0

执行安装命令：

pip install -r requirements.txt

若遇到 mdtex2html 缺失错误，可单独安装：

pip install mdtex2html

5. 内存优化与量化

默认情况下，模型以 FP16 精度加载，约需 13GB 显存。若显存不足，可使用 4-bit 量化加载。

5.1 检查显存

使用 nvidia-smi 查看 GPU 状态。

5.2 量化加载代码

在启动脚本中修改模型加载方式：

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=).quantize().cuda()

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

cd basic_demo
python web_demo.py

streamlit run web_demo2.py

cd openai_api_demo
python openai_api.py

import torch
print(torch.cuda.is_available())
print(torch.version.cuda)

pip uninstall torch torchvision torchaudio
pip install torch==2.0.0+cu118 torchvision==0.15.0+cu118 torchaudio==2.0.0 --extra-index-url https://download.pytorch.org/whl/cu118

# tool_registry.py 示例
def get_weather(city):
    # 实现查询逻辑
    return f"{city} 的天气晴朗"

register_tool(get_weather)

{
  "model": "chatglm3-6b",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "stream": false,
  "max_tokens": 100
}

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

1. 概述

2. 环境准备

2.1 硬件要求

2.2 软件依赖

3. 源码与模型下载

3.1 获取源码

3.2 下载模型权重

4. 安装依赖

5. 内存优化与量化

5.1 检查显存

5.2 量化加载代码

更多推荐文章

相关免费在线工具

6. 运行演示程序

6.1 Gradio Web Demo

6.2 Streamlit Web Demo

6.3 OpenAI API 兼容服务

7. 常见问题排查

7.1 GPU 未被识别

7.2 路径配置错误

8. 参数调优

9. 功能扩展：自定义 Tool

9.1 注册工具

10. API 接口说明

10.1 请求示例

10.2 响应结构

11. 总结

更多推荐文章

相关免费在线工具

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

国产大语言模型 ChatGLM3 本地部署与功能扩展指南

1. 概述

2. 环境准备

2.1 硬件要求

2.2 软件依赖

3. 源码与模型下载

3.1 获取源码

3.2 下载模型权重

4. 安装依赖

5. 内存优化与量化

5.1 检查显存

5.2 量化加载代码

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 运行演示程序

6.1 Gradio Web Demo

6.2 Streamlit Web Demo

6.3 OpenAI API 兼容服务

7. 常见问题排查

7.1 GPU 未被识别

7.2 路径配置错误

8. 参数调优

9. 功能扩展：自定义 Tool

9.1 注册工具

10. API 接口说明

10.1 请求示例

10.2 响应结构

11. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具