清华、国科大、智谱提出 LongReward:利用 AI 反馈优化长文本大模型
背景与挑战
长文本(Long-context)大语言模型的性能优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。随着应用场景的扩展,如法律文档分析、长篇小说生成、多轮对话历史处理等,模型需要处理的上下文长度不断突破极限。
然而,现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能。这导致 SFT 模型存在固有的缺陷,例如幻觉问题频发、无法充分利用上下文关键信息、逻辑推理链条断裂等。在长文本场景下,噪声信息的累积效应尤为明显,简单的指令微调难以解决深层的对齐问题。
原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐。但在长上下文场景下,如何获得可靠、低成本且准确的奖励信号,仍是一个未被充分探索的问题。传统的奖励模型通常基于短文本训练,难以捕捉长距离依赖关系中的细微语义变化。
如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——他们提出了一个名为 LongReward 的新方法。
![图:LongReward 方法架构图]
该方法旨在利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的性能,从而有效地改进 SFT 模型。
研究方法详解
LongReward 的核心思想是通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。具体而言,LongReward 利用一个现有的大模型(M_judge,该研究中使用的 GLM-4)作为裁判,从四个人类重视的价值维度为长文本模型的回复提供奖励。
这些维度覆盖了模型输出的各个关键方面,确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10,最终奖励是这些分数的平均值。这种设计既保留了细粒度的反馈能力,又简化了优化目标。
1. 帮助性(Helpfulness)
评估模型回复是否与问题相关,是否提供了有用的信息,是否满足了用户的需求和要求。
由于帮助性主要依赖于问题和回复内容,基本与上下文无关,研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。例如,如果用户询问长文档中的特定细节,模型不仅需要提供答案,还需要解释答案来源的位置或依据,这有助于提升帮助性的评分。
2. 逻辑性(Logicality)
评估模型回复的不同部分是否逻辑一致,观点是否一致,推理和计算是否正确,是否存在自相矛盾。
与帮助性类似,研究团队让 M_judge 通过少样本学习和思维链(CoT)对回答进行评分,找出可能的逻辑错误。在长文本生成中,模型容易在文章后半部分遗忘前半部分的设定,导致前后矛盾。LongReward 特别强调了对这种一致性错误的检测。
3. 忠实性(Faithfulness)
评估模型回答中事实信息的比例是否与上下文一致。
要求 M_judge 首先将回答分解为事实性陈述,再判断每个陈述是否由最相关的上下文支持。为了适应长上下文场景,将回答分解为句子级别的事实性陈述,并忽略不含事实信息的功能性句子。这一步骤对于防止'幻觉'至关重要,确保生成的内容严格基于提供的材料。
4. 完整性(Completeness)
评估模型回答是否涵盖了上下文中与问题相关的所有关键点,是否提供了足够的信息和细节来满足用户的需求。
首先将上下文分解为粗粒度的块,并让 M_judge 从每个块中提取与问题相关的信息。然后将所有提取的相关信息拼接起来,再利用 M_judge 评估模型回复的完整性,即是否涵盖了所有重要信息。这对于总结类任务尤为重要,避免遗漏关键结论。
结合 DPO 的强化学习框架
在评分机制基础上,LongReward 与离线强化学习(RL)算法 DPO(Direct Preference Optimization)结合,形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出,使其更符合偏好要求,相比传统的 PPO 算法,DPO 更加稳定且无需单独训练奖励模型。
具体来说,通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分,研究团队可以自动构建 DPO 所需的偏好数据集。高分回答作为正样本,低分回答作为负样本,从而引导模型向高奖励方向更新参数。
实验结果与分析
他们的实验表明,LongReward 不仅显著提高了模型的长文本性能,还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示,使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%,超过了所有基线方法。
![图:使用 GPT-4o 对长文本基准进行自动评估的结果]
![图:以 GPT-4o-mini 为评判标准,随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题,得出 SFT 和 dLongReward+DPO 版本的事实分数。]


