LangChain 消息处理全解析：缓存、过滤、合并与流式输出实战

优质文章学习记录

07 Apr 2026 — 8 min read

文章目录

一、消息内存缓存
二、消息过滤
三、消息合并
四、流式输出
五、同步 vs 异步流式
六、流式输出基础用法
- 同步流式
- 异步流式
七、输出解析器
八、流式输出实际应用
九、常见问题
十、总结对比
- 典型应用场景
- 流式输出要点

一、消息内存缓存

核心概念

通过 InMemoryChatMessageHistory 将对话历史存储在内存中，使模型能"记住"之前的对话内容。

关键组件

组件	作用
`InMemoryChatMessageHistory`	内存中的聊天记录存储器
`RunnableWithMessageHistory`	将模型包装为支持历史记录的可运行对象
`memory_store`（字典）	以 `session_id` 为 key 管理多个会话的历史

代码流程

# 1. 创建内存存储字典 memory_store ={}# 2. 定义获取会话历史的函数（按 session_id 区分会话）defget_session_history(session_id:str):if session_id notin memory_store: memory_store[session_id]= InMemoryChatMessageHistory()return memory_store[session_id]# 3. 用 RunnableWithMessageHistory 包装模型 message_model = RunnableWithMessageHistory(model, get_session_history)# 4. 通过 config 指定会话 ID config ={"configurable":{"session_id":"123"}}# 5. 多轮对话，模型自动记住上下文 response1 = message_model.invoke({"input":"你好，我是小明"}, config=config) response2 = message_model.invoke({"input":"我叫什么名字？"}, config=config)# → 模型能回答出"小明"，因为历史被缓存了

运行效果

第一轮：用户说"我是小明"，AI 正常打招呼
第二轮：用户问"我叫什么名字"，AI 能从历史中回忆出"小明"

从LangChain的v0.3版本开始，官⽅建议LangChain⽤⼾不要使⽤
RunnableWithMessageHistory ，⽽是利⽤ LangGraph 持久性来完成

二、消息过滤

核心概念

使用 filter_messages 函数对消息列表进行筛选，按类型或ID过滤消息。

关键函数

from langchain_core.messages import filter_messages

过滤参数

参数	作用	示例
`include_types`	只保留指定类型的消息	`["ai"]` → 只保留 AI 消息
`exclude_ids`	排除指定 ID 的消息	`["4"]` → 排除 id 为 “4” 的消息

代码示例

messages =[ HumanMessage(content="你好，我是小明",id="1"), AIMessage(content="你好，小明！很高兴认识你！",id="2"), HumanMessage(content="我想知道我之前的名字",id="3"), AIMessage(content="你之前的名字是小绿！",id="4"),]# 过滤：只保留 AI 消息，且排除 的消息 filtered_messages = filter_messages( messages, include_types=["ai"], exclude_ids=["4"],)# → 结果只剩 的 AIMessage: "你好，小明！很高兴认识你！"

过滤逻辑

原始消息 → include_types=["ai"] 筛掉 Human 消息 → exclude_ids=["4"] 再排除 id=4 → 最终结果

原始: [Human#1, AI#2, Human#3, AI#4] ↓ include_types=["ai"] 中间: [AI#2, AI#4] ↓ exclude_ids=["4"] 结果: [AI#2]

三、消息合并

核心概念

使用 merge_message_runs 将连续的同类型消息合并为一条，避免多条连续 Human 或 AI 消息导致模型报错或行为异常。

关键函数

from langchain_core.messages import merge_message_runs

代码示例

messages =[ HumanMessage(content="你好",id="1"), HumanMessage(content="我是小明",id="2"),# 连续两条 Human AIMessage(content="你好，小明！",id="3"), AIMessage(content="很高兴认识你！",id="4"),# 连续两条 AI] merged_messages = merge_message_runs(messages)

合并效果

合并前（4条）: human: 你好 human: 我是小明 ai: 你好，小明！ ai: 很高兴认识你！ 合并后（2条）: human: 你好\n我是小明 ai: 你好，小明！\n很高兴认识你！

两种使用方式

# 方式一：直接调用函数合并后传给模型 merged_messages = merge_message_runs(messages) model.invoke(merged_messages)# 方式二：通过管道（pipe）操作，合并与模型调用串联 chain = merge_message_runs | model response = chain.invoke(messages)

管道方式更简洁，适合在 LangChain 链式调用中使用。

四、流式输出

什么是流式输出

流式输出（Streaming） 是指 AI 模型逐字返回内容，而不是等待全部生成完毕后一次性返回。就像 ChatGPT 那样，文字一个个"打"出来，而不是突然全部出现。

为什么需要？

AI 生成长文本可能需要几秒甚至更长时间。传统方式用户需要等待整个响应完成才能看到内容，体验很差。流式输出实时展示生成过程，让用户感觉响应更快，交互更自然。

特性	非流式	流式
用户体验	需要等待	实时看到
适用场景	短文本	聊天对话、长文本
内存占用	一次性加载	逐块处理
可控性	无法中断	可随时停止

典型应用

聊天机器人：像 ChatGPT 一样逐字显示
文章生成：实时展示生成过程
代码生成：逐行显示代码
实时翻译：边翻译边显示

五、同步 vs 异步流式

LangChain 提供两种流式方式：同步（stream）和异步（astream）。

核心区别

特性	同步 stream	异步 astream
调用	`chain.stream()`	`chain.astream()`
循环	`for chunk in`	`async for chunk in`
阻塞	阻塞线程	不阻塞，可并发
场景	单个请求	多个并发请求
性能	一般	更高

工作原理

同步流式： 阻塞当前线程，处理一个请求时无法处理其他请求。就像排队买咖啡，必须等前一个人买完。

异步流式： 使用协程机制，等待 AI 响应时可以切换到其他任务。就像服务员可以同时为多桌客人点单。

何时使用异步？

推荐：

多用户 Web 应用
高并发聊天机器人
与其他异步操作结合

不需要：

简单的单次调用
学习测试阶段

六、流式输出基础用法

同步流式

from langchain_deepseek import ChatDeepSeek from langchain_core.output_parsers import StrOutputParser model = ChatDeepSeek(model="deepseek-chat", streaming=True) parser = StrOutputParser() chain = model | parser for chunk in chain.stream("写一个关于程序员的笑话"):print(chunk, end="|", flush=True)

关键点：

streaming=True：必须设置
flush=True：立即刷新输出

异步流式

import asyncio asyncdefmain(): chain = model | parser asyncfor chunk in chain.astream("写一个关于程序员的笑话"):print(chunk, end="|", flush=True)if __name__ =="__main__": asyncio.run(main())

关键点：

async def：定义异步函数
async for：异步迭代
asyncio.run()：运行入口

七、输出解析器

StrOutputParser 是最常用的解析器，将模型输出转换为纯文本。

作用：

提取文本内容
去除多余格式
统一输出格式

自定义解析器：

defcustom_parser(output:str)->str:return output.strip().replace("。","！") chain = model | parser | custom_parser

应用场景：

格式转换（Markdown → HTML）
内容过滤审核
特殊字符处理

八、流式输出实际应用

1. 聊天机器人

用户发送消息后，AI 回复逐字显示，像真人打字。使用异步流式提高响应速度。

2. 多用户并发

Web 应用中多个用户同时请求，异步流式可以并发处理。

性能对比：

同步：3个请求需要 15 秒（串行）
异步：3个请求只需 5 秒（并发）

3. FastAPI 集成

from fastapi import FastAPI from fastapi.responses import StreamingResponse @app.get("/chat")asyncdefchat_stream(question:str):asyncdefgenerate():asyncfor chunk in chain.astream(question):yield chunk return StreamingResponse(generate(), media_type="text/plain")

九、常见问题

1. 没有流式效果？

原因： 忘记 streaming=True 或 flush=True

2. async for 报错？

原因： 使用了 ainvoke() 而不是 astream()

ainvoke() 返回完整结果，astream() 返回流式迭代器。

3. 性能对比

单个请求：同步和异步相近
多个并发：异步快 3 倍

十、总结对比

功能	函数/类	用途
内存缓存	`InMemoryChatMessageHistory` + `RunnableWithMessageHistory`	让模型记住多轮对话上下文
消息过滤	`filter_messages`	按类型/ID 筛选消息
消息合并	`merge_message_runs`	合并连续同类型消息
流式输出	`stream` / `astream`	实时逐字返回，提升体验
输出解析	`StrOutputParser`	将模型输出转为纯文本

典型应用场景

内存缓存：多轮对话场景，用户问"我之前说了什么"时模型能回答
消息过滤：只提取 AI 回复做摘要、排除某些敏感消息
消息合并：用户连续发了多条消息时，合并后再发给模型，避免格式错误
流式输出：聊天机器人逐字显示、长文本生成、FastAPI 接口集成

流式输出要点

流式输出 = 实时返回，提升体验
同步 = 简单，适合学习
异步 = 高性能，适合生产
必须设置 streaming=True 和 flush=True

Neo4j 知识讲解与在线工具使用教程

图数据库领域的核心工具 ——Neo4j，同时详细拆解其在线预览控制台（https://console-preview.neo4j.io/）的使用方法，以及查询工具（https://console-preview.neo4j.io/tools/query）的模块功能。一、Neo4j 核心知识铺垫在使用工具前，我们需要先理解 Neo4j 的本质和核心概念，这是后续操作的基础。 1. 什么是 Neo4j？ Neo4j 是世界上最流行的原生图数据库（Native Graph Database），专门用于存储、查询和分析 “实体之间的关联关系”。它与我们熟悉的 MySQL 等关系型数据库的核心差异的是： * 关系型数据库（MySQL）：用 “表 + 行 + 外键” 间接表示关联，查询多表关联时需频繁 JOIN，效率低； * 图数据库（Neo4j）

企业微信智能化办公机器人部署与大语言模型集成实操深度指南

第一章企业微信智能机器人生态架构与入口配置在当前数字化协同办公的环境中，企业微信已不再仅仅是一个即时通讯工具，而是演变为企业内部流程自动化与智能化交互的核心终端。通过引入人工智能助手，企业能够实现从琐碎信息处理到复杂业务决策的支持。部署这一体系的第一步，在于正确配置企业微信端的机器人协议入口。 1.1 管理员视角下的系统级配置对于拥有管理权限的人员，配置过程从全局管理后台开始。这涉及到对企业内部工具链的直接授权。在企业微信管理后台的“管理工具”模块中，存在“智能机器人”这一核心功能入口。点击创建机器人后，系统会呈现多种对接方式。为了确保机器人具备实时双向通讯能力以及更强的指令执行权限，必须放弃基础的Webhook模式，转而选择“API模式创建”。这一选择决定了机器人将具备更深层次的API调用能力，能够参与到群组管理、文档读写等高级逻辑处理中。在配置细节中，通过“长连接配置”是目前实现低延迟响应的最优路径。长连接技术能够保持服务器与企业微信网关之间的持续会话，避免了频繁握手带来的网络开销，确保了在复杂群聊环境中，AI助手能够秒级响应成员的指令。 1.2 企业成员视角

高飞团队新作！基于高阶CBF的端到端无人机，实现7.5m/s丛林穿越，突破RL安全瓶颈

「强化学习高速避障新范式」目录 01 主要方法 1. 训练阶段：基于物理先验的奖励塑形 1. Dijkstra全局引导奖励 2. 基于控制障碍函数的安全惩罚 2. 部署阶段：基于高阶控制障碍函数的实时滤波 02 实验结果 1.仿真训练与消融实验 2.基准测试 3.实机飞行验证 03 总结在无人机高速避障领域，Ego-Planner等传统的模块化规划方法受限于感知-规划-控制的累积延迟，往往难以兼顾高速与安全；而RL等纯端到端的强化学习虽然敏捷，却因缺乏理论上的安全保障而被视为黑盒。浙江大学高飞老师团队的这项工作，最令人振奋之处在于巧妙地构建了一套混合架构。 * 在训练阶段，利用 Dijkstra 势场引导 RL 智能体跳出局部极小值陷阱，实现了全局可达性； * 在部署阶段，则引入了基于高阶控制障碍函数（HOCBF）的安全滤波器，将神经网络输出的动作实时投影到可行域内。这种设计不仅在数学上给出了碰撞避免的严谨证明，更在实测中实现了高达 7.5m/s

【数据库】国产数据库的新机遇：电科金仓以融合技术同步全球竞争

7月15日，国产数据库厂商中电科金仓（北京）科技股份有限公司（以下简称“电科金仓”）在北京举行了一场技术发布会，集中发布四款核心产品：AI时代的融合数据库KES V9 2025、企业级统一管控平台KEMCC、数据库一体机（云数据库AI版）以及企业级智能海量数据集成平台KFS Ultra，并同步举行了“金兰组织2.0”启动仪式。如果放在过去几年，这场发布会可能被归入“信创替代”的常规范畴。但这一次，电科金仓试图讲述的不再是“我们也能做、我们可以兼容”，而是“我们能不能定义下一代数据库形态”。整个发布会贯穿了三个关键词：“融合”“AI”“平台能力”。这背后的核心逻辑是清晰的：在“去IOE”与“兼容Oracle”的红利渐近尾声之际，国产数据库厂商开始面对一个更加复杂、也更具挑战性的市场命题——如何在大模型时代支撑非结构化数据、高维向量检索和复杂语义计算的新需求？正如我国数据库学科带头人王珊教授所说，数据库内核与AI能力的深度结合，已成为释放数据核心价值的关键路径，正催生着更智能、更自适应、更能应对复杂挑战的新一代数据库形态。

文章目录

一、消息内存缓存

核心概念

关键组件

代码流程

运行效果

二、消息过滤

核心概念

关键函数

过滤参数

代码示例

过滤逻辑

三、消息合并

核心概念

关键函数

代码示例

合并效果

两种使用方式

四、流式输出

什么是流式输出

为什么需要？

典型应用

五、同步 vs 异步流式

核心区别

工作原理

何时使用异步？

六、流式输出基础用法

同步流式

异步流式

七、输出解析器

八、流式输出实际应用

1. 聊天机器人

2. 多用户并发

3. FastAPI 集成

九、常见问题

1. 没有流式效果？

2. async for 报错？

3. 性能对比

十、总结对比

典型应用场景

流式输出要点

Read more

Neo4j 知识讲解与在线工具使用教程

企业微信智能化办公机器人部署与大语言模型集成实操深度指南

高飞团队新作！基于高阶CBF的端到端无人机，实现7.5m/s丛林穿越，突破RL安全瓶颈

【数据库】国产数据库的新机遇：电科金仓以融合技术同步全球竞争