跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
PythonAI算法

清华、国科大、智谱提出 LongReward:利用 AI 反馈优化长文本大模型

综述由AI生成清华大学、中国科学院大学及智谱团队提出 LongReward 方法,利用现有大语言模型作为裁判,从帮助性、逻辑性、忠实性和完整性四个维度为长文本模型回复提供奖励信号。该方法结合 DPO 算法,有效解决了长文本 SFT 数据缺乏人类核验导致的幻觉和上下文利用率低等问题。实验显示,在 Llama-3.1-8B 和 GLM-4-9B 模型上,LongReward 使长文本任务性能分别提升 4.9% 和 5.5%,并增强了简短指令遵循能力。尽管存在 API 调用成本高和模型规模受限等局限,但为长文本对齐提供了新范式。

颠三倒四发布于 2025/2/7更新于 2026/6/1323 浏览
清华、国科大、智谱提出 LongReward:利用 AI 反馈优化长文本大模型

清华、国科大、智谱提出 LongReward:利用 AI 反馈优化长文本大模型

背景与挑战

长文本(Long-context)大语言模型的性能优劣,在很大程度上取决于其能否全面理解长上下文场景下的复杂信息。随着应用场景的扩展,如法律文档分析、长篇小说生成、多轮对话历史处理等,模型需要处理的上下文长度不断突破极限。

然而,现有的合成有监督微调(SFT)数据由于缺少人类核验,往往会影响长文本大模型的性能。这导致 SFT 模型存在固有的缺陷,例如幻觉问题频发、无法充分利用上下文关键信息、逻辑推理链条断裂等。在长文本场景下,噪声信息的累积效应尤为明显,简单的指令微调难以解决深层的对齐问题。

原则上,通过适当的奖励信号进行强化学习已被证明能有效地减少 SFT 模型的缺陷,使其更好地与人类偏好对齐。但在长上下文场景下,如何获得可靠、低成本且准确的奖励信号,仍是一个未被充分探索的问题。传统的奖励模型通常基于短文本训练,难以捕捉长距离依赖关系中的细微语义变化。

如今,来自清华大学、中国科学院大学和智谱的研究团队在这一领域迈出了重要一步——他们提出了一个名为 LongReward 的新方法。

![图:LongReward 方法架构图]

该方法旨在利用现有的大语言模型(LLM)从四个人类价值维度(帮助性、逻辑性、忠实性和完整性)为长文本模型的回复提供奖励,并结合强化学习进一步提升模型的性能,从而有效地改进 SFT 模型。

研究方法详解

LongReward 的核心思想是通过奖励信号解决了 SFT 在长文本模型中因缺少人类标注而导致的数据质量问题。具体而言,LongReward 利用一个现有的大模型(M_judge,该研究中使用的 GLM-4)作为裁判,从四个人类重视的价值维度为长文本模型的回复提供奖励。

这些维度覆盖了模型输出的各个关键方面,确保在长文本情境下对生成内容进行全面评估。每个维度的评分范围是 0 到 10,最终奖励是这些分数的平均值。这种设计既保留了细粒度的反馈能力,又简化了优化目标。

1. 帮助性(Helpfulness)

评估模型回复是否与问题相关,是否提供了有用的信息,是否满足了用户的需求和要求。

由于帮助性主要依赖于问题和回复内容,基本与上下文无关,研究团队让 M_judge 通过少样本学习和思维链 (CoT) 对问题和回答进行评分。例如,如果用户询问长文档中的特定细节,模型不仅需要提供答案,还需要解释答案来源的位置或依据,这有助于提升帮助性的评分。

2. 逻辑性(Logicality)

评估模型回复的不同部分是否逻辑一致,观点是否一致,推理和计算是否正确,是否存在自相矛盾。

与帮助性类似,研究团队让 M_judge 通过少样本学习和思维链(CoT)对回答进行评分,找出可能的逻辑错误。在长文本生成中,模型容易在文章后半部分遗忘前半部分的设定,导致前后矛盾。LongReward 特别强调了对这种一致性错误的检测。

3. 忠实性(Faithfulness)

评估模型回答中事实信息的比例是否与上下文一致。

要求 M_judge 首先将回答分解为事实性陈述,再判断每个陈述是否由最相关的上下文支持。为了适应长上下文场景,将回答分解为句子级别的事实性陈述,并忽略不含事实信息的功能性句子。这一步骤对于防止'幻觉'至关重要,确保生成的内容严格基于提供的材料。

4. 完整性(Completeness)

评估模型回答是否涵盖了上下文中与问题相关的所有关键点,是否提供了足够的信息和细节来满足用户的需求。

首先将上下文分解为粗粒度的块,并让 M_judge 从每个块中提取与问题相关的信息。然后将所有提取的相关信息拼接起来,再利用 M_judge 评估模型回复的完整性,即是否涵盖了所有重要信息。这对于总结类任务尤为重要,避免遗漏关键结论。

结合 DPO 的强化学习框架

在评分机制基础上,LongReward 与离线强化学习(RL)算法 DPO(Direct Preference Optimization)结合,形成一个完整的 RL 框架。DPO 的目标是通过偏好数据集优化模型输出,使其更符合偏好要求,相比传统的 PPO 算法,DPO 更加稳定且无需单独训练奖励模型。

具体来说,通过多次采样长文本 SFT 模型的回答并使用 LongReward 给每个回答打分,研究团队可以自动构建 DPO 所需的偏好数据集。高分回答作为正样本,低分回答作为负样本,从而引导模型向高奖励方向更新参数。

实验结果与分析

他们的实验表明,LongReward 不仅显著提高了模型的长文本性能,还增强了它们遵循简短指令的能力。在 Llama-3.1-8B 和 GLM-4-9B 模型上进行的实验显示,使用 LongReward 的 DPO 模型在长文本任务上的性能分别比 SFT 模型提高了 4.9% 和 5.5%,超过了所有基线方法。

![图:使用 GPT-4o 对长文本基准进行自动评估的结果]

![图:以 GPT-4o-mini 为评判标准,随机抽取了 260 道来自 LongBench-Chat 和 LongBench 的问题,得出 SFT 和 dLongReward+DPO 版本的事实分数。]

![图:在一组 464 个人工标注的长文本偏好对中,将不同评分方法与人类偏好进行比对,其中的提问和回答分别来自 LongBench-Chat 和 Llama-3.1-8B 的 SFT 检查点。]

此外,人类评估进一步验证了 LongReward 与人类偏好的良好一致性,并从所有维度(即有用性、逻辑性、忠实性和完整性)帮助改善了长文本模型,比 SFT 基线高出 46%。

![图:LongReward+DPO 版本的 Llama-3.1-8B 在 LongBench Chat 上与 SFT 基线对比的人工评估结果]

同时,他们发现 LongReward 也有助于模型的简短指令遵循能力,并且可以很好地融入标准的短文本 DPO 中,共同提升长文本和短文本性能。这意味着该方法具有较好的通用性,不会牺牲模型在常规任务上的表现。

![图:不同模型在短文本指令跟随 benchmarks 上的表现]

![图:使用不同偏好数据集的 DPO 模型性能]

不足与展望

当然,这一研究也存在一定的局限性,主要包括以下三点:

首先,LongReward 的评估依赖于高精度、对齐良好的 LLM 模型(如 GLM-4),并且每个 QA 实例需要花费数十次 API 调用。未来,还需要尝试训练更小的长文本奖励模型,从而实现更快、更便宜的奖励计算。降低推理成本是大规模应用的关键。

此外,由于计算资源有限,该研究只在最大训练长度为 64k 的 10B 级模型上进行,限制了对更大规模模型和长序列的探索。随着硬件算力的提升,验证该方法在百 B 甚至万亿参数模型上的效果将是下一步的重点。

最后,从数据角度来看,该研究主要关注用户密集型的长上下文场景,如长文档 QA 和总结。未来可以尝试将 LongReward 推广到其他更高级的长指令任务,如终身对话和长历史 agent 任务,也是一个很有前景的方向。

技术延伸:为何长文本对齐如此困难?

为了更好地理解 LongReward 的贡献,我们需要深入探讨长文本对齐的技术难点。

注意力机制的瓶颈

Transformer 架构虽然理论上支持无限上下文,但在实际训练中,随着序列长度增加,注意力权重的分布会变得稀疏。模型往往倾向于关注开头和结尾的信息,而忽略中间部分,这种现象被称为"Lost in the Middle"。LongReward 通过强制模型在多个维度上评估回复质量,间接鼓励模型更均匀地分配注意力。

奖励模型的泛化能力

传统的奖励模型通常在短文本偏好数据上训练,当应用于长文本时,其评分标准可能失效。例如,一个在短文本中得分高的回答,在长文本中可能因为遗漏了关键细节而被判定为不完整。LongReward 引入的多维度评分机制,特别是针对完整性和忠实性的专门设计,弥补了这一短板。

DPO 的优势

相比于 PPO(Proximal Policy Optimization),DPO 不需要显式地维护一个奖励模型,而是直接通过偏好数据进行优化。这使得训练过程更加稳定,减少了超参数调优的难度。LongReward 结合 DPO,使得长文本优化变得更加可行和高效。

结语

LongReward 代表了长文本大模型优化方向的一个重要进展。它证明了利用现有大模型作为裁判,结合多维度的价值评估,可以有效提升长上下文的理解与生成能力。随着技术的迭代,我们期待看到更多基于此类方法的创新,推动大模型在复杂任务中的应用边界。


参考资料:

  • 论文链接:https://arxiv.org/abs/2410.21252
  • GitHub 地址:https://github.com/THUDM/LongReward
  • Hugging Face 数据集:https://huggingface.co/datasets/THUDM/LongReward-10k

目录

  1. 清华、国科大、智谱提出 LongReward:利用 AI 反馈优化长文本大模型
  2. 背景与挑战
  3. 研究方法详解
  4. 1. 帮助性(Helpfulness)
  5. 2. 逻辑性(Logicality)
  6. 3. 忠实性(Faithfulness)
  7. 4. 完整性(Completeness)
  8. 结合 DPO 的强化学习框架
  9. 实验结果与分析
  10. 不足与展望
  11. 技术延伸:为何长文本对齐如此困难?
  12. 注意力机制的瓶颈
  13. 奖励模型的泛化能力
  14. DPO 的优势
  15. 结语
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • Python 兼职与副业赚钱途径实战指南
  • AI 产品经理必备核心能力与技能指南
  • Arduino BLDC 无刷电机模糊逻辑避障控制实战
  • 使用自然语言训练 OpenClaw 智能助手,实现 SQL 查询与自动化办公
  • Java volatile 关键字:底层原理、应用场景与最佳实践
  • 常见 AI 论文降重工具功能对比与选择指南
  • C++ 二叉搜索树(BST)原理与核心操作实现
  • Modbus CRC16 算法规范与计算示例
  • 数据结构:顺序表原理与实现
  • 低代码结合大模型:中小企业半天构建专属 SaaS 应用路径
  • 二分答案专题实战:木材加工与砍树问题详解
  • 初学者如何快速入门Python:心态、书籍与实战指南
  • Python 爬虫核心能力解析:能抓取什么及为何选择它
  • SpiffWorkflow:纯 Python 实现的工作流引擎
  • 前端 TypeScript 高级技巧:提升代码安全性
  • 用 OpenClaw 在 QQ 群部署 24 小时 AI 助教
  • Spring Boot 虚拟线程时代:WebFlux 与 WebMVC 的选型抉择
  • 几种典型的 Python 兼职开发途径与实战思路
  • 基于 Higress 将 REST API 转换为 MCP Server 的配置实践
  • AI Agent 生产级框架实战:架构设计与核心代码实现

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • curl 转代码

    解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online