GLM-5 全栈实战：从本地部署到多 Agent 架构应用

一、背景与技术概述

随着开源大模型技术的快速迭代，GLM-5 系列凭借优秀的指令遵循能力、长上下文支持、轻量化部署适配性与商用友好的开源协议，成为企业级 AI 落地与个人开发者技术进阶的核心选型之一。

本文以问题驱动为核心，完整覆盖从本地开源部署到工程化 API 封装、多 Agent 架构设计、全栈项目实战的全流程，解决开发者在大模型落地过程中面临的部署门槛高、工程化能力不足、Agent 架构落地难、全栈项目缺乏可复用方案等核心痛点。所有实操步骤均经过生产环境验证，代码可直接复用，适配就业级项目的技术要求与企业落地标准。

1.1 GLM-5 核心技术特性

开源协议：Apache 2.0 协议，支持商用二次开发，无额外授权门槛
核心能力：支持 128K 超长上下文窗口，原生支持函数调用、多模态理解、结构化输出，指令遵循准确率较前代提升 42%
部署适配：原生支持 FP8/INT4/AWQ/GPTQ 多精度量化，最低可在 16G 显存环境完成流畅推理，适配消费级显卡与企业级 GPU 集群
性能优化：基于稀疏注意力架构与 PagedAttention 机制，推理吞吐量较同参数量模型提升 3 倍，适配高并发生产场景

1.2 测试环境与依赖版本规范

本文所有实操内容均基于以下环境完成，确保可复现性：

环境类型	规范配置
硬件最低配置	CPU 16 核、32G 内存、NVIDIA GPU 16G 显存（RTX 4090/3090/A10）
硬件推荐配置	CPU 24 核、64G 内存、NVIDIA GPU 24G+ 显存（RTX 4090Ti/A100）
系统环境	Ubuntu 22.04 LTS / Windows 11 WSL2
基础软件	Python 3.11.9、CUDA 12.4、cuDNN 9.1.0
核心依赖	transformers==4.45.2、vllm==0.7.3、torch==2.4.1+cu124、fastapi==0.115.2、langchain==0.3.7、langgraph==0.2.45、pydantic==2.9.2

1.3 前置环境配置

国内镜像源配置（解决模型权重下载慢问题）

# 配置 Hugging Face 国内镜像
export HF_ENDPOINT=https://hf-mirror.com
# 配置 ModelScope 国内镜像
export MODELSCOPE_CACHE=/data/modelscope_cache

核心依赖批量安装

# 安装 PyTorch
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
# 安装全量依赖
pip install transformers==4.45.2 vllm==0.7.3 fastapi==0.115.2 uvicorn==0.32.0 langchain==0.3.7 langgraph==0.2.45 pydantic==2.9.2 python-multipart==0.0.12 pyjwt==2.9.0 redis==7.4.0 chromadb==0.5.15

Python 虚拟环境搭建

# 创建隔离虚拟环境
conda create -n glm5_env python=3.11.9 -y
conda activate glm5_env

协作模式	核心逻辑	适用场景
顺序执行模式	多个 Agent 按固定流程依次执行，前一个 Agent 的输出作为后一个的输入	标准化流程任务，如文档处理、数据清洗
并行执行模式	多个 Agent 同时执行不同子任务，最终汇总结果	多维度分析、并行数据处理
层级管理模式	总控 Agent 负责任务拆解与调度，子 Agent 负责具体任务执行，支持层级审批	复杂项目管理、企业级业务流程
共识决策模式	多个 Agent 针对同一任务分别输出结果，通过投票/评审达成最终共识	高风险决策、合规审核、内容创作评审

# 1. 文档解析 Agent 节点 def doc_parse_node(state: DocProcessState) -> DocProcessState: system_prompt = SystemMessage(content=""" 你是专业的文档解析专家，负责解析各类文档并提取核心内容，严格按照工具返回结果输出，不得篡改内容。你的任务： 1. 调用 parse_document 工具解析文档 2. 提取原始文本内容、文档大纲结构 3. 解析失败时，明确返回错误信息，不得隐瞒 """) # 调用模型与工具 response = llm.bind_tools([parse_document]).invoke([ system_prompt, HumanMessage(content=f"请解析文档：{state['file_path']}") ]) # 处理工具调用结果 if response.tool_calls: tool_result = parse_document.invoke(response.tool_calls[0]["args"]) if tool_result.get("error"): return {**state, "error_msg": tool_result["error"], "current_step": "parse_failed"} return { **state, "raw_content": tool_result["raw_content"], "doc_outline": tool_result["doc_outline"], "current_step": "parse_success", "messages": [response] } return {**state, "error_msg": "文档解析工具调用失败", "current_step": "parse_failed"} # 2. 内容校验 Agent 节点 def content_check_node(state: DocProcessState) -> DocProcessState: system_prompt = SystemMessage(content=""" 你是专业的文本校验专家，负责对文档内容进行全面校验： 1. 修正错别字、标点符号错误、语法错误 2. 检查数据一致性、逻辑连贯性，标记逻辑漏洞 3. 保留原文的核心含义与结构，仅修正错误内容 4. 输出修正后的完整文本，同时标注所有修改点 """) response = llm.invoke([ system_prompt, HumanMessage(content=f"请校验以下文档内容：\n{state['raw_content']}") ]) return { **state, "checked_content": response.content, "current_step": "check_success", "messages": [*state["messages"], response] } # 合规审核 Agent、内容优化 Agent、格式排版 Agent、结果输出 Agent 节点实现逻辑此处省略，与上述结构一致 # 调度 Agent 节点实现，负责流程分支判断与异常处理 def scheduler_node(state: DocProcessState) -> DocProcessState: if state.get("error_msg"): return {**state, "current_step": "error_handle"} # 流程调度逻辑，根据当前步骤跳转至下一个节点 step_mapping = { "init": "parse", "parse_success": "check", "check_success": "compliance", "compliance_success": "optimize", "optimize_success": "format", "format_success": "output", "output_success": "finish" } next_step = step_mapping.get(state["current_step"], "finish") return {**state, "current_step": next_step}

from langchain_core.tools import tool from langchain_openai import ChatOpenAI from langgraph.graph import StateGraph, END from langchain_core.messages import SystemMessage, HumanMessage import docx import fitz # PyMuPDF，用于 PDF 解析 import re # 初始化 GLM-5 模型 llm = ChatOpenAI( model="THUDM/GLM-5-9B-Chat", api_key="EMPTY", base_url="http://127.0.0.1:8000/v1", temperature=0.2 ) # 文档解析工具 @tool def parse_document(file_path: str) -> dict: """ 解析 PDF/Word/Markdown/TXT 文档，提取文本内容与结构 :param file_path: 本地文档文件路径 :return: 解析结果，包含 raw_content、doc_outline、file_type """ file_type = file_path.split(".")[-1].lower() doc_outline = [] raw_content = "" try: if file_type == "pdf": doc = fitz.open(file_path) for page in doc: raw_content += page.get_text() doc.close() elif file_type == "docx": doc = docx.Document(file_path) for para in doc.paragraphs: raw_content += para.text + "\n" if para.style.name.startswith("Heading"): level = int(para.style.name.replace("Heading ", "")) doc_outline.append({"level": level, "title": para.text}) elif file_type in ["md", "txt"]: with open(file_path, "r", encoding="utf-8") as f: raw_content = f.read() # 提取 Markdown 标题 outline_pattern = re.compile(r"^(#{1,6})\s+(.*)$", re.MULTILINE) matches = outline_pattern.findall(raw_content) for match in matches: level = len(match[0]) doc_outline.append({"level": level, "title": match[1]}) else: return {"error": f"不支持的文件格式：{file_type}"} return { "file_type": file_type, "raw_content": raw_content, "doc_outline": doc_outline, "error": None } except Exception as e: return {"error": f"文档解析失败：{str(e)}"} # 其他工具（文件保存、敏感词检测等）实现逻辑此处省略，可根据需求扩展

# app/services/rag_service.py import os from langchain_text_splitters import RecursiveCharacterTextSplitter from langchain_community.document_loaders import PyMuPDFLoader, Docx2txtLoader, TextLoader from langchain_openai import OpenAIEmbeddings, ChatOpenAI from langchain_chroma import Chroma from langchain_core.runnables import RunnablePassthrough from langchain_core.output_parsers import StrOutputParser from langchain_core.prompts import ChatPromptTemplate from app.core.config import settings # 初始化嵌入模型，基于 GLM-5 的嵌入模型 embeddings = OpenAIEmbeddings( model="THUDM/GLM-5-Embedding", api_key=settings.API_KEY, base_url=settings.GLM_BASE_URL, ) # 初始化向量数据库 vector_store = Chroma( collection_name="glm5_knowledge_base", embedding_function=embeddings, persist_directory=settings.CHROMA_PERSIST_DIR ) # 文本分块器 text_splitter = RecursiveCharacterTextSplitter( chunk_size=1024, chunk_overlap=100, separators=["\n\n", "\n", "。", "！", "？", " ", ""] ) class RAGService: @staticmethod def load_and_split_document(file_path: str) -> list: """加载文档并分块""" file_type = file_path.split(".")[-1].lower() if file_type == "pdf": loader = PyMuPDFLoader(file_path) elif file_type == "docx": loader = Docx2txtLoader(file_path) elif file_type in ["txt", "md"]: loader = TextLoader(file_path, encoding="utf-8") else: raise ValueError(f"不支持的文件格式：{file_type}") # 加载并分块 documents = loader.load() splits = text_splitter.split_documents(documents) return splits @staticmethod def add_document_to_kb(file_path: str, user_id: int) -> str: """添加文档到知识库""" splits = RAGService.load_and_split_document(file_path) # 为每个分块添加用户 ID 元数据 for split in splits: split.metadata["user_id"] = user_id split.metadata["file_name"] = os.path.basename(file_path) # 存入向量数据库 vector_store.add_documents(splits) return f"文档{os.path.basename(file_path)}已成功添加到知识库" @staticmethod def rag_chat(query: str, user_id: int, stream: bool = False): """基于知识库的检索增强生成""" # 检索用户专属知识库，过滤用户 ID retriever = vector_store.as_retriever( search_kwargs={"filter": {"user_id": user_id}, "k": 4} ) # RAG 提示词模板 prompt = ChatPromptTemplate.from_template(""" 你是专业的知识问答助手，基于以下检索到的知识库内容回答用户问题，严格遵循以下规则： 1. 仅使用检索到的知识库内容回答问题，不得编造信息 2. 若知识库中没有相关内容，直接回答"知识库中暂无相关内容，无法为您解答该问题" 3. 回答内容清晰、准确、有条理，保留专业术语 4. 引用知识库内容时，标注对应的文档名称知识库内容：{context} 用户问题：{question} """) # 初始化大模型 llm = ChatOpenAI( model=settings.GLM_MODEL_NAME, api_key=settings.API_KEY, base_url=settings.GLM_BASE_URL, temperature=0.3, streaming=stream ) # 构建 RAG 链 rag_chain = ( {"context": retriever | (lambda docs: "\n\n".join([doc.page_content for doc in docs])), "question": RunnablePassthrough()} | prompt | llm | StrOutputParser() ) # 执行调用 if stream: return rag_chain.stream(query) return rag_chain.invoke(query)

<template> <div>  <div ref="messageListRef"> <div v-for="msg in messageList" :key="msg.id" :class="['message-item', msg.role]"> <div> <el-icon v-if="msg.role === 'user'"><User /></el-icon> <el-icon v-else><ChatDotRound /></el-icon> </div> <div> <div v-if="msg.role === 'assistant'" v-html="renderMarkdown(msg.content)"></div> <div v-else>{{ msg.content }}</div> </div> </div>  <div v-if="isLoading"> <div><el-icon><ChatDotRound /></el-icon></div> <div><el-icon><Loading /></el-icon> 正在思考...</div> </div> </div>  <div> <el-input v-model="userInput" type="textarea" :rows="3" placeholder="请输入问题，Shift+Enter 换行，Enter 发送" @keydown.enter.prevent="handleSendMessage" :disabled="isLoading" /> <div> <el-button :icon="DocumentAdd" @click="handleUploadFile">上传文档</el-button> <el-button type="primary" @click="handleSendMessage" :loading="isLoading">发送</el-button> </div> </div> </div> </template> <script setup lang="ts"> import { ref, nextTick, onMounted } from 'vue' import { User, ChatDotRound, Loading, DocumentAdd } from '@element-plus/icons-vue' import { ElMessage } from 'element-plus' import { marked } from 'marked' import hljs from 'highlight.js' import 'highlight.js/styles/github.css' import axios from 'axios' // 配置 marked 与代码高亮 marked.setOptions({ highlight: (code, lang) => { const language = hljs.getLanguage(lang) ? lang : 'plaintext' return hljs.highlight(code, { language }).value }, breaks: true }) // 响应式数据 const messageListRef = ref<HTMLElement>() const userInput = ref('') const isLoading = ref(false) const messageList = ref<Array<{id: string, role: 'user' | 'assistant', content: string}>>([]) const currentSessionId = ref(1) const API_BASE_URL = 'http://127.0.0.1:8080/api/v1' // 渲染 markdown 内容 const renderMarkdown = (content: string) => { return marked.parse(content) } // 滚动到底部 const scrollToBottom = () => { nextTick(() => { if (messageListRef.value) { messageListRef.value.scrollTop = messageListRef.value.scrollHeight } }) } // 发送消息 const handleSendMessage = async () => { if (!userInput.value.trim()) { ElMessage.warning('请输入消息内容') return } if (isLoading.value) return // 添加用户消息 const userMsg = { id: Date.now().toString(), role: 'user' as const, content: userInput.value.trim() } messageList.value.push(userMsg) const inputContent = userInput.value.trim() userInput.value = '' isLoading.value = true scrollToBottom() // 添加助手空消息，用于流式填充 const assistantMsgId = (Date.now() + 1).toString() messageList.value.push({ id: assistantMsgId, role: 'assistant', content: '' }) try { // 流式请求 const response = await fetch(`${API_BASE_URL}/chat/stream/completions`, { method: 'POST', headers: { 'Content-Type': 'application/json', 'X-API-Key': localStorage.getItem('api_key') || '', 'Authorization': `Bearer ${localStorage.getItem('access_token')}` }, body: JSON.stringify({ messages: messageList.value.filter(msg => msg.content).map(msg => ({ role: msg.role, content: msg.content })), stream: true }) }) if (!response.ok) throw new Error('请求失败') const reader = response.body?.getReader() if (!reader) return const decoder = new TextDecoder() while (true) { const { done, value } = await reader.read() if (done) break const chunk = decoder.decode(value) const lines = chunk.split('\n\n') for (const line of lines) { if (line.startsWith('data: ')) { const content = line.slice(6) if (content === '[DONE]') { isLoading.value = false return } // 填充流式内容 const targetMsg = messageList.value.find(msg => msg.id === assistantMsgId) if (targetMsg) { targetMsg.content += content scrollToBottom() } } } } } catch (error) { ElMessage.error('消息发送失败，请稍后重试') console.error(error) } finally { isLoading.value = false } } // 上传文档方法实现此处省略 onMounted(() => { // 加载会话历史消息 }) </script> <style scoped lang="scss"> .chat-box { display: flex; flex-direction: column; height: 100vh; padding: 20px; box-sizing: border-box; } .message-list { flex: 1; overflow-y: auto; margin-bottom: 20px; .message-item { display: flex; margin-bottom: 20px; .avatar { width: 40px; height: 40px; border-radius: 50%; background: #409eff; color: #fff; display: flex; align-items: center; justify-content: center; margin-right: 16px; flex-shrink: 0; } .message-content { max-width: 70%; padding: 12px 16px; border-radius: 8px; background: #f5f7fa; line-height: 1.6; } &.user { flex-direction: row-reverse; .avatar { margin-left: 16px; margin-right: 0; background: #67c23a; } .message-content { background: #ecf5ff; } } } } .input-area { border: 1px solid #dcdfe6; border-radius: 8px; padding: 12px; .input-toolbar { display: flex; justify-content: space-between; margin-top: 12px; } } </style>

GLM-5 全栈实战：从本地部署到多 Agent 架构应用

一、背景与技术概述

1.1 GLM-5 核心技术特性

1.2 测试环境与依赖版本规范

1.3 前置环境配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、GLM-5 本地开源部署全流程

2.1 模型权重合法获取

2.2 轻量化 Transformers 原生部署

2.2.1 单轮对话实现

2.2.2 多轮对话与流式输出实现

2.3 生产级 vLLM 高并发部署

2.3.1 命令行一键启动服务

2.3.2 OpenAI 兼容接口调用示例

2.4 低资源环境部署方案

2.4.1 CPU-only 离线部署

2.4.2 消费级显卡优化方案

三、GLM-5 API 工程化封装与接入

3.1 基于 FastAPI 的标准化 API 封装

3.1.1 项目结构设计

3.1.2 核心接口实现

3.2 API 权限认证与流量管控

3.2.1 API Key 鉴权实现

3.2.2 基于 Redis 的限流实现

3.3 多语言 SDK 接入示例

3.3.1 Python 接入

3.3.2 JavaScript/TypeScript 接入

四、基于 GLM-5 的多 Agent 架构设计与实战

4.1 多 Agent 系统核心原理与架构选型

4.1.1 Agent 核心组件

4.1.2 多 Agent 协作模式与架构选型

4.2 单 Agent 最小闭环实现

4.3 多 Agent 协作系统实战：全流程智能文档处理平台

4.3.1 系统架构与 Agent 角色定义

4.3.2 基于 LangGraph 的状态与流程设计

4.4 多 Agent 系统性能优化与稳定性保障

五、GLM-5 全栈编程实战：就业级智能对话平台开发

5.1 全栈项目整体架构设计

5.2 后端服务核心模块开发

5.2.1 用户认证模块

5.2.2 RAG 检索增强模块

5.2.3 对话管理模块

5.3 前端页面开发与交互实现

5.3.1 项目初始化

5.3.2 核心对话组件实现

5.4 项目打包与生产环境部署

六、行业落地场景与适配要点

6.1 核心落地场景与真实案例

6.1.1 企业智能客服系统

6.1.2 金融行业智能投研平台

6.1.3 制造业智能运维系统

6.1.4 政务行业智能办事助手

6.2 行业适配核心要点

七、实操常见问题与注意事项

7.1 部署常见问题与解决方案

7.2 生产环境落地注意事项

7.3 多 Agent 与全栈项目开发避坑指南

八、总结与进阶方向

核心内容总结

后续进阶方向

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具