一、推理(Inference Service)服务是什么
在讨论任何高级概念前,我们必须回归物理本质。
像 GPT-4、DeepSeek-V3 这样的大语言模型(LLM),在磁盘上本质上只是一个巨大的参数文件(.safetensors 或 .bin)。它们本身是静态的,不会思考,也不会响应。
要让它们'活'过来,需要一个推理服务引擎(如 vLLM, TGI, Ollama)。
- 加载:引擎将参数文件加载到 GPU 显存中。
- 接口:对外暴露 HTTP/gRPC 接口(通常是
/v1/chat/completions)。 - 计算:接收 Token 序列,进行矩阵运算,输出下一个 Token 的概率分布。
结论:大模型 = 静态参数文件 + 推理引擎进程。对外暴露 HTTP 接口,接收用户请求,做推理,返回结果,这就是推理服务。给它套个 Web 前端,就是聊天机器人;给它加上复杂的控制逻辑,就是 AI Agent。

二、状态管理:Memory(记忆机制)
1.痛点
HTTP 协议是无状态的(Stateless)。为了高并发,推理服务通常部署多个实例(Replicas)。
- 请求 A -> 实例 1
- 请求 B -> 实例 2
如果大模型本身不保存状态,如何让它记得你上一句说了什么呢?这就靠大模型的记忆。
2.技术实现
所谓的'记忆',本质上是上下文工程(Context Engineering)。系统会在每次请求时,动态拼接历史对话,构造完整的 Prompt 发送给模型。
- 短期记忆(Short-term Memory):滑动窗口机制。保留最近 NN 轮对话的完整文本。
- 技术点:使用 Redis 或内存队列存储最近会话。
- 长期记忆(Long-term Memory):摘要压缩机制。将久远对话通过 LLM 提炼成关键信息(Summary),或存入向量库。即:
- 索引阶段:将外部文档切片(Chunking),通过 Embedding 模型转化为向量(Vector),存入向量数据库(如 Milvus, Chroma, pgvector)。
- 检索阶段:用户提问时,将问题也转化为向量,在数据库中计算余弦相似度,召回最相关的 KK 个片段。
生成阶段:将召回的片段作为'参考材料'注入 Prompt。架构图如下:








