GLM-4 大模型部署与微调实战指南

GLM-4 大模型部署与微调实战指南 | 极客日志

pip install torch transformers peft accelerate bitsandbytes zhipuai langchain

from zhipuai import ZhipuAI

client = ZhipuAI(api_key="YOUR_API_KEY")

response = client.chat.completions.create(
    model="glm-4",
    messages=[
        {"role": "user", "content": "请介绍一下 GLM-4 模型的特点。"}
    ],
    stream=False
)

print(response.choices[0].message.content)

for chunk in client.chat.completions.create(
    model="glm-4",
    messages=[{"role": "user", "content": "写一首关于春天的诗。"}],
    stream=True
):
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4-9b-chat", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "THUDM/glm-4-9b-chat",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

python -m vllm.entrypoints.api_server \
    --model THUDM/glm-4-9b-chat \
    --tensor-parallel-size 1 \
    --port 8000

from langchain.llms import HuggingFacePipeline
from transformers import pipeline

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7
)

llm = HuggingFacePipeline(pipeline=pipe)

{
  "instruction": "请翻译这句话：Hello world",
  "input": "",
  "output": "你好世界"
}

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    task_type="CAUSAL_LM",
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.1,
    bias="none"
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./glm-4-lora",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=3,
    fp16=True,
    logging_steps=10,
    save_strategy="epoch"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer
)

trainer.train()

model.save_pretrained("./merged-model")

GLM-4 大模型部署与微调实战指南

GLM-4 大模型部署与微调实战指南

前言

一、环境准备

1. 基础依赖

2. 硬件要求

二、API 部署与调用

1. 初始化客户端

2. 发送请求

3. 流式输出

三、本地部署方案

1. Transformers 原生加载

2. vLLM 高性能部署

3. LangChain 集成

四、LoRA 高效指令微调

1. 数据集构造

2. 模型配置

3. 训练执行

4. 效果评估与合并

五、常见问题排查

结语

更多推荐文章

相关免费在线工具

GLM-4 大模型部署与微调实战指南

GLM-4 大模型部署与微调实战指南

前言

一、环境准备

1. 基础依赖

2. 硬件要求

二、API 部署与调用

1. 初始化客户端

2. 发送请求

3. 流式输出

三、本地部署方案

1. Transformers 原生加载

2. vLLM 高性能部署

3. LangChain 集成

四、LoRA 高效指令微调

1. 数据集构造

2. 模型配置

3. 训练执行

4. 效果评估与合并

五、常见问题排查

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具