微调 LLM 以构建任务型对话 Agent

一种构建任务型对话 Agent 的方案，利用蒙特卡洛方法模拟用户行为并结合 LLM 生成训练数据集，使用 LLaMA Factory 对多种 LLM 进行 LoRA 微调。方案通过有向图建模对话流程，增强模型对上下文的理解及槽位填充能力。实验结果显示，微调后的 Qwen 1.5 Chat 模型在意图识别和槽位准确率上显著提升，优于微调前基线及其他竞品模型。该方法简化了系统架构，提升了端到端对话 Agent 的部署效率和交互智能性。

赛博行者发布于 2025/2/7更新于 2026/7/1738 浏览

背景与动机

在对话系统的设计和实现中，传统的基于 Rasa-like 框架的方法往往需要依赖于多个模块的紧密协作。例如，基于大模型（LLM）构建的任务型对话 Agent，如 Thought Agent，其由自然语言理解（NLU）、对话管理（DM）和对话策略（DP）等模块共同协作组成。这种模块化的设计虽然在理论上具有灵活性，但在实践中却带来了诸多挑战，尤其是在系统集成、错误传播、维护更新以及开发门槛等方面。

为了克服这些挑战，构建一个端到端（E2E）的模型显得尤为关键。E2E 的模型通过将对话的各个阶段集成到一个统一的框架中，极大地简化了系统架构，提高了处理效率，并减少了错误传递的可能性。此外，由于其简化的架构，也更易于维护和更新，从而降低了开发和维护的成本。在我们看来，端到端的对话 Agent 不仅在技术上更具优势，而且在实际应用中也展现了其独特的价值和潜力，例如能够快速构建帮助用户查询信息、调度技能的 Agent。

本文将指导读者如何采用蒙特卡洛（Monte Carlo）方法模拟用户行为并结合 LLM 的方法来构建训练数据集；使用 LLaMA Factory 对多种 LLM 进行高效微调构建任务型对话 Agent。该方案允许用户快速创建出能够精准调用外部工具的 Agent。

核心挑战

任务型对话系统的核心需求包括意图识别、槽位填充、状态管理和策略决策。我们识别了以下几个关键挑战：

微调后的 LLM 能够从用户的问题中识别到用户意图和关键信息（槽位）
微调后的 LLM 能够对用户的问题有判断边界的能力，容易混淆的内容将触发意图确认，完全无关的内容将触发兜底话术
微调后的 LLM 能够根据槽位填充状态判断合适的触发功能调用（Function Calling）的时机
微调后的 LLM 能够根据上下文正确的识别到需要用于调用功能的关键信息

构造数据集

为了应对上述挑战，首先我们需要构造能够覆盖大部分场景的对话数据集。我们面临的核心难点是如何模拟真实世界中用户的多样化行为和对话系统的有效响应。但是对于任务型对话 Agent 来说，用户和 Agent 之间的对话域是有限的，因为 Agent 只需要处理业务范围内的用户意图，超出处理范围的内容，只需要返回一些固定的兜底话术即可。因此我们可以采用了状态图对对话的过程进行建模，使用蒙特卡洛方法对真实的对话过程进行模拟，接着使用 LLM 的生成能力来创建符合状态、角色定义的对话内容从而达到构建数据集的目的。

基于图的对话流程图的建模

我们使用有向图（Directed Graph）的数据结构来对通用的任务型对话流程进行建模，这比传统的有限状态机更加灵活和通用。在构建对话流程图时，我们首先定义了一组节点，每个节点代表了对话中的一个关键状态。例如，一个理想的对话过程至少包含以下节点:

Start: 对话开始
IntentAcquire: Agent 询问用户意图
UserInquiry: 用户发起新的提问
IntentConfirm: Agent 向用户确认意图（用户意图不明确时）
UserConfirm: 用户确认意图
UserDeny: 用户否认意图
AskSlot: 追问用户关于该意图的关键信息（槽位）
ProvideSlot: 用户提供或更新关键信息（槽位）
FunctionCalling: 调用功能，传递槽位信息
Chitchat: 用户闲聊
End: 对话结束

在定义了节点之后，我们使用边将可以进行状态转移的节点连接起来，从而构建一个有向图用来表征对话过程中所有可能的转移关系。在这个图中，主要的变量是用户对话内容，Agent 的回复内容是随着用户的对话意图和槽位状态发生的变化而变化。对于每个原子对话（Atomic Dialogue）来说，我们认为在用户提供了清晰的意图以及提供了全部的必填槽位信息之后，这个原子对话就算结束了，即可以触发 Function calling 的指令。

对话流程转移图示例

图 1. 对话流程转移图示例（可能没有覆盖全部场景）

初始状态随机生成

在对话系统的开始阶段，用户的首次提问可能包含从零到全部所需槽位的不同信息量。为了模拟这种多样性，我们可以使用蒙特卡洛方法来随机决定哪些槽位在用户的首次提问中被提及。具体来说，对于一个意图中的所有槽位，我们可以生成一个由 0 或 1 组成的随机数组，其中 0 表示该槽位不能再首次提问中提及，而 1 表示需要被提及。

例如，考虑一个酒店预订任务，可能的关键信息包括「入住日期」、「退房日期」和「房间类型」。利用上述的方法，我们可以为每个槽位生成一个对应的随机值，从而决定用户的首次提问中需要包含哪些信息。这不仅增加了对话样本的多样性，也使得训练数据集更加贴近真实世界的对话情况。

Model	Size	Intent Accuracy	Intent Recall	Slot Accuracy	Slot Recall
ChatGLM3 Chat	6B	-	-	-	-
ChatGLM3	6B	-	-	-	-
Qwen 1.5 Chat	7B	96.23%	97.76%	93.98%	95.11%
Qwen 1.5	7B	94.79%	98.31%	91.80%	94.01%
Yi Chat	6B	92.73%	95.44%	89.21%	91.77%
Yi	6B	94.19%	97.09%	91.34%	92.17%
Qwen 1.5 Chat（微调前）, Baseline	7B	82.64%	85.32%	75.74%	89.67%

微调 LLM 以构建任务型对话 Agent

背景与动机

核心挑战

构造数据集

基于图的对话流程图的建模

初始状态随机生成

更多推荐文章

相关免费在线工具

随机游走模拟用户行为

对上下文理解能力的增强

基于 LLM 的对话内容生成

易扩展的意图配置

目标为任务型对话 Agent 的 LLM 微调

推理与服务化优化

实验结果

结论

更多推荐文章

相关免费在线工具

微调 LLM 以构建任务型对话 Agent

背景与动机

核心挑战

构造数据集

基于图的对话流程图的建模

初始状态随机生成

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

随机游走模拟用户行为

对上下文理解能力的增强

基于 LLM 的对话内容生成

易扩展的意图配置

目标为任务型对话 Agent 的 LLM 微调

推理与服务化优化

实验结果

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具