微调 LLM 构建任务型对话 Agent 方案与实践

利用蒙特卡洛方法模拟用户行为并结合 LLM 生成能力构建任务型对话 Agent 数据集的方案。通过有向图建模对话流程，随机游走模拟用户路径，并利用 RAG 增强领域知识，解决了传统模块化对话系统在集成和维护上的挑战。使用 LLaMA Factory 框架配合 LoRA 技术对 Qwen 1.5、ChatGLM3 等模型进行微调，实验表明 Qwen 1.5 Chat 在意图识别和槽位填充上表现最佳，显著优于微调前基线。方案实现了端到端的 Agent 架构，增强了上下文理解能力和工具调用准确性，为构建高效任务型对话系统提供了实践参考。

WenxuanMa发布于 2025/2/6更新于 2026/7/1840 浏览

为什么？

在对话系统的设计和实现中，传统的基于 Rasa-like 框架的方法往往需要依赖于多个模块的紧密协作。例如，基于大模型（LLM）构建的任务型对话 Agent，其由自然语言理解（NLU）、对话管理（DM）和对话策略（DP）等模块共同协作组成。这种模块化的设计虽然在理论上具有灵活性，但在实践中却带来了诸多挑战，尤其是在系统集成、错误传播、维护更新以及开发门槛等方面。

为了克服这些挑战，构建一个端到端（E2E）的模型显得尤为关键。E2E 的模型通过将对话的各个阶段集成到一个统一的框架中，极大地简化了系统架构，提高了处理效率，并减少了错误传递的可能性。此外，由于其简化的架构，也更易于维护和更新，从而降低了开发和维护的成本。在我们看来，端到端的对话 Agent 不仅在技术上更具优势，而且在实际应用中也展现了其独特的价值和潜力，例如能够快速构建帮助用户查询信息、调度技能的 Agent。

本文将指导读者如何采用蒙特卡洛方法（Monte Carlo）模拟用户行为并结合 LLM 的方法来构建训练数据集；使用 LLaMA Factory 对多种 LLM 进行高效微调构建任务型对话 Agent。该方案允许用户快速创建出能够精准调用外部工具的 Agent。

挑战

任务型对话系统的核心需求包括意图识别、槽位填充、状态管理和策略决策。我们识别了以下几个关键挑战：

微调后的 LLM 能够从用户的问题中识别到用户意图和关键信息（槽位）
微调后的 LLM 能够对用户的问题有判断边界的能力，容易混淆的内容将触发意图确认，完全无关的内容将触发兜底话术
微调后的 LLM 能够根据槽位填充状态判断合适的触发功能调用（Function calling）的时机
微调后的 LLM 能够根据上下文正确的识别到需要用于调用功能的关键信息

构造数据集

为了应对上述挑战，首先我们需要构造能够覆盖大部分场景的对话数据集，我们面临的核心难点是如何模拟真实世界中用户的多样化行为和对话系统的有效响应。但是对于任务型对话 Agent 来说，用户和 Agent 之间的对话域是有限的，因为 Agent 只需要处理业务范围内的用户意图，超出处理范围的内容，只需要返回一些固定的兜底话术即可。因此我们可以采用了状态图对对话的过程进行建模，使用蒙特卡洛方法对真实的对话过程进行模拟，接着使用 LLM 的生成能力来创建符合状态、角色定义的对话内容从而达到构建数据集的目的。

基于图的对话流程图的建模

我们使用有向图（Directed Graph）的数据结构来对通用的任务型对话流程进行建模，这比传统的有限状态机更加灵活和通用。在构建对话流程图时，我们首先定义了一组节点，每个节点代表了对话中的一个关键状态。例如，一个理想的对话过程至少包含以下节点：

Start: 对话开始
IntentAcquire: Agent 询问用户意图
UserInquiry: 用户发起新的提问
IntentConfirm: Agent 向用户确认意图（用户意图不明确时）
UserConfirm: 用户确认意图
UserDeny: 用户否认意图
AskSlot: 追问用户关于该意图的关键信息（槽位）
ProvideSlot: 用户提供或更新关键信息（槽位）
FunctionCalling: 调用功能，传递槽位信息
Chitchat: 用户闲聊
End: 对话结束

在定义了节点之后，我们使用边将可以进行状态转移的节点连接起来，从而构建一个有向图用来表征对话过程中所有可能的转移关系。在这个图中，主要的变量是用户对话内容，Agent 的回复内容是随着用户的对话意图和槽位状态发生的变化而变化。对于每个原子对话（Atomic Dialogue）来说，我们认为在用户提供了清晰的意图以及提供了全部的必填槽位信息之后，这个原子对话就算结束了，即可以触发 Function calling 的指令。

初始状态随机生成

在对话系统的开始阶段，用户的首次提问可能包含从零到全部所需槽位的不同信息量。为了模拟这种多样性，我们可以使用蒙特卡洛方法来随机决定哪些槽位在用户的首次提问中被提及。具体来说，对于一个意图中的所有槽位，我们可以生成一个由 0 或 1 组成的随机数组，其中 0 表示该槽位不能再首次提问中提及，而 1 表示需要被提及。

例如，考虑一个酒店预订任务，可能的关键信息包括「入住日期」、「退房日期」和「房间类型」。利用上述的方法，我们可以为每个槽位生成一个对应的随机值，从而决定用户的首次提问中需要包含哪些信息。这不仅增加了对话样本的多样性，也使得训练数据集更加贴近真实世界的对话情况。

随机游走模拟用户行为

初始状态生成了之后，我们需要生成多样化的对话路径，这里采用蒙特卡洛方法使得当前的对话状态在建立好的对话转移状态图中随机游走。在每个状态完成之后，将随机选择下一个状态，各状态的转移概率可以根据经验进行定义，从而模拟用户可能采取的不同行动。例如，用户在首问中没有提供全部的必填槽位，Agent 将发起槽位的追问，对于 Agent 的追问，用户可能认真的回答槽位信息，也有可能发起闲聊，还有可能改变了主意，问了一个新的问题，不同的转移路径我们可以设置不同的概率，例如上面的转移路径我们根据经验分为设置概率为 [0.8, 0.1, 0.1]。通过这种随机游走的方式，可以生成不同的对话状态路径，每条路径都代表了一种可能的用户行为和 Agent 响应。这些路径为我们提供了丰富的训练数据，帮助对话系统学习如何处理各种情况。

Model	Size	Intent Accuracy	Intent Recall	Slot Accuracy	Slot Recall
ChatGLM3 Chat	6B	-	-	-	-
ChatGLM3	6B	-	-	-	-
Qwen 1.5 Chat	7B	96.23%	97.76%	93.98%	95.11%
Qwen 1.5	7B	94.79%	98.31%	91.80%	94.01%
Yi Chat	6B	92.73%	95.44%	89.21%	91.77%
Yi	6B	94.19%	97.09%	91.34%	92.17%
Qwen 1.5 Chat（微调前）, Baseline	7B	82.64%	85.32%	75.74%	89.67%

微调 LLM 构建任务型对话 Agent 方案与实践

为什么？

挑战