LLM 存储优化：大量 QA 与长对话问题实战

LLM 存储优化：大量 QA 与长对话问题实战 | 极客日志

痛点类型	具体表现	后果
技术限制	用户聊 10 轮就超 4k Token 限制	早期 QA 信息丢失，回答驴唇不对马嘴
效率瓶颈	全量存历史，检索一次要 600ms+	回复慢，用户吐槽'反应迟钝'
业务&合规风险	存用户手机号、需求等敏感信息原文	有数据泄露风险，质检溯源难

pip install langchain langchain-openai langchain-core pymilvus # 按需装存储依赖

from langchain.memory import ConversationSummaryMemory
from langchain_openai import ChatOpenAI

# 初始化大模型（使用通义千问，替换自己的 api_key）
llm = ChatOpenAI(
    model_name="qwen-plus",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    api_key="你的 api_key",
    temperature=0.7
)

# 初始化摘要记忆（核心组件）
memory = ConversationSummaryMemory(llm=llm)

# 模拟对话
memory.save_context({"input":"AI 大模型怎么入门？"}, {"output":"先学基础概念，再调用 API，然后学 LangChain、RAG，最后实战做项目"})
memory.save_context({"input":"有没有适合零基础的课程？"}, {"output":"可以看零基础学 AI 大模型系列，从 API 调用讲到 Agent 实战"})

# 取摘要
summary = memory.load_memory_variables({})
print("对话摘要")
print(summary["history"])

from langchain.memory import ConversationSummaryMemory
from langchain_openai import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

# 1. 初始化大模型
llm = ChatOpenAI(
    model_name="qwen-plus",
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
    api_key="你的 api_key",
    temperature=0.7
)

# 2. 初始化摘要记忆
memory = ConversationSummaryMemory(
    llm=llm,
    memory_key="chat_history",
    return_messages=True
)

# 3. 定义 prompt
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是 AI 助手，基于对话摘要回答问题，语气亲切像聊天"),
    ("human", "对话摘要：{chat_history}\n用户现在问：{input}")
])

# 4. 构建 LCEL 链
chain = (
    RunnablePassthrough.assign(
        chat_history=lambda _: memory.load_memory_variables({})["chat_history"]
    )
    | prompt
    | llm
    | StrOutputParser()
)

# 5. 模拟用户多轮对话
user_inputs = [
    "怎么用 LangChain 做记忆功能？",
    "ConversationSummaryMemory，能存多少轮对话？",
    "它和 Milvus 结合的话，怎么存摘要？"
]

# 6. 运行对话
for query in user_inputs:
    print(f"\n用户：{query}")
    response = chain.invoke({"input": query})
    print(f"助手：{response}")
    memory.save_context({"input": query}, {"output": response})
    current_summary = memory.load_memory_variables({})["chat_history"]
    print(f"当前对话摘要：{current_summary}")

特性	LCEL 链	LLMChain
记忆保存	需手动调用 memory.save_context()	自动保存，不用手动写
链式灵活性	高，可加路由、日志	固定结构，灵活度低
调试&扩展	可插中间件，适合复杂项目	靠 verbose=True 调试，适合入门
使用场景	智能助手、Agent 项目	简单对话 demo

LLM 存储优化：大量 QA 与长对话问题实战

LLM 存储优化：大量 QA 与长对话问题实战

一、先搞懂面试常问：为什么会有'存储优化'需求？

面试题 1：传统对话系统每次交互独立，模型无法感知历史，怎么解？

面试题 2：长对话超出模型 Token 能力，信息截断、性能下降，怎么解？

二、大模型存储的 3 大核心痛点

三、核心解决方案：摘要存储+LangChain 实战

核心目标

技术原理

优势

四、带摘要存储的对话系统

实战准备

实战 1：基础版——生成对话摘要

实战 2：进阶版——带摘要存储的对话链

五、关键知识点：LCEL 和 LLMChain 怎么选？

六、避坑指南

七、总结

更多推荐文章

相关免费在线工具

LLM 存储优化：大量 QA 与长对话问题实战

LLM 存储优化：大量 QA 与长对话问题实战

一、先搞懂面试常问：为什么会有'存储优化'需求？

面试题 1：传统对话系统每次交互独立，模型无法感知历史，怎么解？

面试题 2：长对话超出模型 Token 能力，信息截断、性能下降，怎么解？

二、大模型存储的 3 大核心痛点

三、核心解决方案：摘要存储+LangChain 实战

核心目标

技术原理

优势

四、带摘要存储的对话系统

实战准备

实战 1：基础版——生成对话摘要

实战 2：进阶版——带摘要存储的对话链

五、关键知识点：LCEL 和 LLMChain 怎么选？

六、避坑指南

七、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具