清华、国科大、智谱提出 LongReward：利用 AI 反馈优化长文本大模型

背景与挑战

长文本（Long-context）大语言模型的性能优劣，在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。随着应用场景的扩展，如法律文档分析、长篇小说生成、多轮对话历史处理等，模型需要处理的上下文长度不断突破极限。

然而，现有的合成有监督微调（SFT）数据由于缺少人类核验，往往会影响长文本大模型的性能。这导致 SFT 模型存在固有的缺陷，例如幻觉问题频发、无法充分利用上下文关键信息、逻辑推理链条断裂等。在长文本场景下，噪声信息的累积效应尤为明显，简单的指令微调难以解决深层的对齐问题。

原则上，通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷，使其更好地与人类偏好对齐。但在长上下文场景下，如何获得可靠、低成本且准确的奖励信号，仍是一个未被充分探索的问题。传统的奖励模型通常基于短文本训练，难以捕捉长距离依赖关系中的细微语义变化。

如今，来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——他们提出了一个名为 LongReward 的新方法。

![图：LongReward 方法架构图]

该方法旨在利用现有的大语言模型（LLM）从四个人类价值维度（帮助性、逻辑性、忠实性和完整性）为长文本模型的回复提供奖励，并结合强化学习进一步提升模型的性能，从而有效地改进 SFT 模型。

研究方法详解

LongReward 的核心思想是通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。具体而言，LongReward 利用一个现有的大模型（M_judge，该研究中使用的 GLM-4）作为裁判，从四个人类重视的价值维度为长文本模型的回复提供奖励。

这些维度覆盖了模型输出的各个关键方面，确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10，最终奖励是这些分数的平均值。这种设计既保留了细粒度的反馈能力，又简化了优化目标。

1. 帮助性（Helpfulness）

评估模型回复是否与问题相关，是否提供了有用的信息，是否满足了用户的需求和要求。

由于帮助性主要依赖于问题和回复内容，基本与上下文无关，研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。例如，如果用户询问长文档中的特定细节，模型不仅需要提供答案，还需要解释答案来源的位置或依据，这有助于提升帮助性的评分。

2. 逻辑性（Logicality）

评估模型回复的不同部分是否逻辑一致，观点是否一致，推理和计算是否正确，是否存在自相矛盾。

与帮助性类似，研究团队让 M_judge 通过少样本学习和思维链（CoT）对回答进行评分，找出可能的逻辑错误。在长文本生成中，模型容易在文章后半部分遗忘前半部分的设定，导致前后矛盾。LongReward 特别强调了对这种一致性错误的检测。

3. 忠实性（Faithfulness）

评估模型回答中事实信息的比例是否与上下文一致。

要求 M_judge 首先将回答分解为事实性陈述，再判断每个陈述是否由最相关的上下文支持。为了适应长上下文场景，将回答分解为句子级别的事实性陈述，并忽略不含事实信息的功能性句子。这一步骤对于防止'幻觉'至关重要，确保生成的内容严格基于提供的材料。

4. 完整性（Completeness）

评估模型回答是否涵盖了上下文中与问题相关的所有关键点，是否提供了足够的信息和细节来满足用户的需求。

首先将上下文分解为粗粒度的块，并让 M_judge 从每个块中提取与问题相关的信息。然后将所有提取的相关信息拼接起来，再利用 M_judge 评估模型回复的完整性，即是否涵盖了所有重要信息。这对于总结类任务尤为重要，避免遗漏关键结论。

结合 DPO 的强化学习框架

在评分机制基础上，LongReward 与离线强化学习（RL）算法 DPO（Direct Preference Optimization）结合，形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出，使其更符合偏好要求，相比传统的 PPO 算法，DPO 更加稳定且无需单独训练奖励模型。

具体来说，通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分，研究团队可以自动构建 DPO 所需的偏好数据集。高分回答作为正样本，低分回答作为负样本，从而引导模型向高奖励方向更新参数。

实验结果与分析

他们的实验表明，LongReward 不仅显著提高了模型的长文本性能，还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示，使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%，超过了所有基线方法。

![图：使用 GPT-4o 对长文本基准进行自动评估的结果]

![图：以 GPT-4o-mini 为评判标准，随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题，得出 SFT 和 dLongReward+DPO 版本的事实分数。]

![图：在一组 464 个人工标注的长文本偏好对中，将不同评分方法与人类偏好进行比对，其中的提问和回答分别来自 LongBench-Chat 和 Llama-3.1-8B 的 SFT 检查点。]

此外，人类评估进一步验证了 LongReward 与人类偏好的良好一致性，并从所有维度（即有用性、逻辑性、忠实性和完整性）帮助改善了长文本模型，比 SFT 基线高出 46%。

![图：LongReward+DPO 版本的 Llama-3.1-8B 在 LongBench Chat 上与 SFT 基线对比的人工评估结果]

同时，他们发现 LongReward 也有助于模型的简短指令遵循能力，并且可以很好地融入标准的短文本 DPO 中，共同提升长文本和短文本性能。这意味着该方法具有较好的通用性，不会牺牲模型在常规任务上的表现。

![图：不同模型在短文本指令跟随 benchmarks 上的表现]

![图：使用不同偏好数据集的 DPO 模型性能]

不足与展望

当然，这一研究也存在一定的局限性，主要包括以下三点：

首先，LongReward 的评估依赖于高精度、对齐良好的 LLM 模型（如 GLM-4），并且每个 QA 实例需要花费数十次 API 调用。未来，还需要尝试训练更小的长文本奖励模型，从而实现更快、更便宜的奖励计算。降低推理成本是大规模应用的关键。

此外，由于计算资源有限，该研究只在最大训练长度为 64k 的 10B 级模型上进行，限制了对更大规模模型和长序列的探索。随着硬件算力的提升，验证该方法在百 B 甚至万亿参数模型上的效果将是下一步的重点。

最后，从数据角度来看，该研究主要关注用户密集型的长上下文场景，如长文档 QA 和总结。未来可以尝试将 LongReward 推广到其他更高级的长指令任务，如终身对话和长历史 agent 任务，也是一个很有前景的方向。

技术延伸：为何长文本对齐如此困难？

为了更好地理解 LongReward 的贡献，我们需要深入探讨长文本对齐的技术难点。

注意力机制的瓶颈

Transformer 架构虽然理论上支持无限上下文，但在实际训练中，随着序列长度增加，注意力权重的分布会变得稀疏。模型往往倾向于关注开头和结尾的信息，而忽略中间部分，这种现象被称为"Lost in the Middle"。LongReward 通过强制模型在多个维度上评估回复质量，间接鼓励模型更均匀地分配注意力。

奖励模型的泛化能力

传统的奖励模型通常在短文本偏好数据上训练，当应用于长文本时，其评分标准可能失效。例如，一个在短文本中得分高的回答，在长文本中可能因为遗漏了关键细节而被判定为不完整。LongReward 引入的多维度评分机制，特别是针对完整性和忠实性的专门设计，弥补了这一短板。

DPO 的优势

相比于 PPO（Proximal Policy Optimization），DPO 不需要显式地维护一个奖励模型，而是直接通过偏好数据进行优化。这使得训练过程更加稳定，减少了超参数调优的难度。LongReward 结合 DPO，使得长文本优化变得更加可行和高效。

结语

LongReward 代表了长文本大模型优化方向的一个重要进展。它证明了利用现有大模型作为裁判，结合多维度的价值评估，可以有效提升长上下文的理解与生成能力。随着技术的迭代，我们期待看到更多基于此类方法的创新，推动大模型在复杂任务中的应用边界。

参考资料：

论文链接：https://arxiv.org/abs/2410.21252
GitHub 地址：https://github.com/THUDM/LongReward
Hugging Face 数据集：https://huggingface.co/datasets/THUDM/LongReward-10k

清华、国科大、智谱提出 LongReward：利用 AI 反馈优化长文本大模型