LangChain 消息处理实战：缓存、过滤、合并与流式输出 | 极客日志

PythonAI

LangChain 消息处理实战：缓存、过滤、合并与流式输出

LangChain 消息处理涵盖内存缓存、消息过滤、消息合并及流式输出等核心功能。通过 InMemoryChatMessageHistory 实现多轮对话上下文记忆，利用 filter_messages 按类型或 ID 筛选消息，使用 merge_message_runs 合并连续同类型消息以避免异常。流式输出分为同步与异步两种模式，能实时返回内容提升用户体验，特别适用于聊天机器人及高并发场景。结合 FastAPI 可实现高效接口集成，StrOutputParser 用于统一输出格式。

GRACE Grace发布于 2026/4/7更新于 2026/7/2040 浏览

一、消息内存缓存

核心概念

通过 InMemoryChatMessageHistory 将对话历史存储在内存中，使模型能记住之前的对话内容。

关键组件

组件	作用
`InMemoryChatMessageHistory`	内存中的聊天记录存储器
`RunnableWithMessageHistory`	将模型包装为支持历史记录的可运行对象
`memory_store`（字典）	以 `session_id` 为 key 管理多个会话的历史

代码流程

# 1. 创建内存存储字典
memory_store = {}

# 2. 定义获取会话历史的函数（按 session_id 区分会话）
def get_session_history(session_id: str):
    if session_id not in memory_store:
        memory_store[session_id] = InMemoryChatMessageHistory()
    return memory_store[session_id]

# 3. 用 RunnableWithMessageHistory 包装模型
message_model = RunnableWithMessageHistory(model, get_session_history)

# 4. 通过 config 指定会话 ID
config = {"configurable": {"session_id": "123"}}

# 5. 多轮对话，模型自动记住上下文
response1 = message_model.invoke({"input": "你好，我是小明"}, config=config)
response2 = message_model.invoke({"input": "我叫什么名字？"}, config=config)
# → 模型能回答出'小明'，因为历史被缓存了

运行效果

第一轮：用户说'我是小明'，AI 正常打招呼
第二轮：用户问'我叫什么名字'，AI 能从历史中回忆出'小明'

从 LangChain 的 v0.3 版本开始，官方建议 LangChain 用户不要使用 RunnableWithMessageHistory，而是利用 LangGraph 持久性来完成。

二、消息过滤

核心概念

使用 filter_messages 函数对消息列表进行筛选，按类型或 ID 过滤消息。

相关免费在线工具

RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

from langchain_core.messages import filter_messages

参数	作用	示例
`include_types`	只保留指定类型的消息	`"ai"` → 只保留 AI 消息
`exclude_ids`	排除指定 ID 的消息	`"4"` → 排除 id 为'4'的消息

messages = [
    HumanMessage(content="你好，我是小明", id="1"),
    AIMessage(content="你好，小明！很高兴认识你！", id="2"),
    HumanMessage(content="我想知道我之前的名字", id="3"),
    AIMessage(content="你之前的名字是小绿！", id="4"),
]
# 过滤：只保留 AI 消息，且排除 id=4 的消息
filtered_messages = filter_messages(
    messages, include_types=["ai"], exclude_ids=["4"]
)
# → 结果只剩 id=2 的 AIMessage: "你好，小明！很高兴认识你！"

原始：[Human#1, AI#2, Human#3, AI#4]
↓ include_types=["ai"]
中间：[AI#2, AI#4]
↓ exclude_ids=["4"]
结果：[AI#2]

from langchain_core.messages import merge_message_runs

messages = [
    HumanMessage(content="你好", id="1"),
    HumanMessage(content="我是小明", id="2"), # 连续两条 Human
    AIMessage(content="你好，小明！", id="3"),
    AIMessage(content="很高兴认识你！", id="4"), # 连续两条 AI
]
merged_messages = merge_message_runs(messages)

合并前（4 条）:
human: 你好
human: 我是小明
ai: 你好，小明！
ai: 很高兴认识你！

合并后（2 条）:
human: 你好\n我是小明
ai: 你好，小明！\n很高兴认识你！

# 方式一：直接调用函数合并后传给模型
merged_messages = merge_message_runs(messages)
model.invoke(merged_messages)

# 方式二：通过管道（pipe）操作，合并与模型调用串联
chain = merge_message_runs | model
response = chain.invoke(messages)

特性	非流式	流式
用户体验	需要等待	实时看到
适用场景	短文本	聊天对话、长文本
内存占用	一次性加载	逐块处理
可控性	无法中断	可随时停止

特性	同步 stream	异步 astream
调用	`chain.stream()`	`chain.astream()`
循环	`for chunk in`	`async for chunk in`
阻塞	阻塞线程	不阻塞，可并发
场景	单个请求	多个并发请求
性能	一般	更高

from langchain_deepseek import ChatDeepSeek
from langchain_core.output_parsers import StrOutputParser

model = ChatDeepSeek(model="deepseek-chat", streaming=True)
parser = StrOutputParser()
chain = model | parser

for chunk in chain.stream("写一个关于程序员的笑话"):
    print(chunk, end="|", flush=True)

import asyncio

async def main():
    chain = model | parser
    async for chunk in chain.astream("写一个关于程序员的笑话"):
        print(chunk, end="|", flush=True)

if __name__ == "__main__":
    asyncio.run(main())

def custom_parser(output: str) -> str:
    return output.strip().replace("。", "！")

chain = model | parser | custom_parser

from fastapi import FastAPI
from fastapi.responses import StreamingResponse

@app.get("/chat")
async def chat_stream(question: str):
    async def generate():
        async for chunk in chain.astream(question):
            yield chunk
    return StreamingResponse(generate(), media_type="text/plain")

功能	函数/类	用途
内存缓存	`InMemoryChatMessageHistory` + `RunnableWithMessageHistory`	让模型记住多轮对话上下文
消息过滤	`filter_messages`	按类型/ID 筛选消息
消息合并	`merge_message_runs`	合并连续同类型消息
流式输出	`stream` / `astream`	实时逐字返回，提升体验
输出解析	`StrOutputParser`	将模型输出转为纯文本

LangChain 消息处理实战：缓存、过滤、合并与流式输出

一、消息内存缓存

核心概念

关键组件

代码流程

运行效果

二、消息过滤

核心概念

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

关键函数

过滤参数

代码示例

过滤逻辑

三、消息合并

核心概念

关键函数

代码示例

合并效果

两种使用方式

四、流式输出

什么是流式输出

为什么需要？

典型应用

五、同步 vs 异步流式

核心区别

工作原理

何时使用异步？

六、流式输出基础用法

同步流式

异步流式

七、输出解析器

八、流式输出实际应用

1. 聊天机器人

2. 多用户并发

3. FastAPI 集成

九、常见问题

1. 没有流式效果？

2. async for 报错？

3. 性能对比

十、总结对比

典型应用场景

流式输出要点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具