GLM-4 大模型部署与微调实战指南

GLM-4 大模型部署与微调实战指南 | 极客日志

GLM-4 大模型部署与微调实战指南

前言

智谱 AI 发布了最新开源模型 GLM-4，通过高质量多语言数据与先进训练技术，在中文能力、长文本处理及工具调用等任务中表现优异。本文基于官方项目 Self-LLM，详细介绍 GLM-4 的完整教学流程，包括 API 部署、LangChain 接入、Web Demo 构建、vLLM 高性能推理以及 LoRA 高效指令微调。

环境准备

基础依赖

确保已安装 Python 3.8+ 及相关深度学习框架：

pip install torch transformers peft accelerate
pip install zhipuai langchain vllm

获取模型权重

从 Hugging Face 或 ModelScope 下载 GLM-4 相关权重文件，并配置好本地路径。

1. API 部署与调用

使用 zhipuai SDK 快速调用 GLM-4 API。需先在智谱开放平台获取 API Key。

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="YOUR_API_KEY")
response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {"role": "user", "content": "你好，请介绍一下你自己。"},
    ],
)
print(response.choices[0].message.content)

2. LangChain 接入

将 GLM-4 集成到 LangChain 框架中，便于构建 RAG 应用或 Agent。

from langchain.llms import ZhipuAI

llm = ZhipuAI(model="glm-4", temperature=0.7)
prompt = "请用一句话总结人工智能的发展趋势。"
result = llm.invoke(prompt)
print(result)

3. Web Demo 部署

利用 Streamlit 或 Gradio 快速搭建交互界面。

import streamlit as st
from zhipuai import ZhipuAI

st.title("GLM-4 Chat Demo")
api_key = st.text_input("Enter API Key", type="password")

if api_key:
    client = ZhipuAI(api_key=api_key)
    user_input = st.text_area("Input")
    if st.button("Generate"):
        response = client.chat.completions.create(
            model="glm-4",
            messages=[{"role": "user", "content": user_input}]
        )
        st.write(response.choices[0].message.content)

4. vLLM 高性能推理

针对本地部署场景，vLLM 提供高吞吐量的推理服务。

# 启动 vLLM 服务
python -m vllm.entrypoints.api_server \
    --model THUDM/glm-4-9b-chat \
    --port 8000

客户端请求示例：

import requests
url = "http://localhost:8000/generate"
data = {
    "prompt": "Hello, world!",
    "max_tokens": 50
}
response = requests.post(url, json=data)
print(response.json())

5. LoRA 高效指令微调

通过 PEFT 库加载低秩适配器（LoRA），以较低成本实现领域适配。

数据构造

分析子词嵌入模板，构造指令微调数据。确保特殊子词编号对应正确。

{
  "instruction": "请翻译以下句子：Hello World",
  "input": "",
  "output": "你好，世界"
}

微调脚本

使用 transformers 和 peft 进行训练配置。

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "THUDM/glm-4-9b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["query_key_value"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

训练效果验证

微调完成后，检查生成效果是否符合预期。

User: 小姐，别的秀女都在求中选，唯有咱们小姐想被撂牌子，菩萨一定记得真真儿的——      
Assistant: 菩萨也会看错眼的时候。

结语

本教程涵盖了 GLM-4 从 API 调用到本地微调的核心流程。项目代码已全部开源，包含配置示例与训练数据，方便学习者一键运行。建议开发者结合具体业务场景，探索更多应用场景。

项目地址： https://github.com/datawhalechina/self-llm/tree/master/GLM-4

GLM-4 大模型部署与微调实战指南