8 篇必读的大模型论文精选

综述由AI生成大模型领域近期发布 8 篇重要论文，涵盖长文本优化、医疗影像分析、文生图与视频生成、生物医学建模及小语言模型等方向。其中包括清华大学提出的 LongReward 强化学习框架，Ataraxis AI 的多模态乳腺癌预后测试，SberAI 的 Kandinsky-3 扩散模型，Meta 的 MarDini 视频生成方案，IBM 的多视图生物医学基础模型，以及关于 AI 生成视频评估和小语言模型的综述。此外还介绍了马里兰大学的 LARP 视频 tokenizer 技术。这些研究在提升模型性能、扩展应用场景及优化计算效率方面取得了显著进展。

怪力乱神发布于 2025/2/7更新于 2026/6/425 浏览

1. LongReward：利用 AI 反馈改进长文本大语言模型

尽管在开发长文本大语言模型（LLMs）方面取得了重大进展，但用于有监督微调（SFT）的 LLM 合成数据质量不佳，往往会影响 SFT 模型的长文本性能，并导致其固有的局限性。原则上，采用适当奖励信号的强化学习（RL）可以进一步提高模型的能力。然而，如何在长文本场景中获得可靠的奖励信号仍有待探索。

为此，来自清华大学、中国科学院大学和智谱的研究团队提出了一种新方法–LongReward，它利用现成的 LLM，从四个人类重视的维度为长文本模型的回复提供奖励：帮助性、逻辑性、忠实性和完整性，每个维度都有一个精心设计的评估 pipeline。通过结合 LongReward 和离线 RL 算法 DPO，他们能够有效地改进长文本 SFT 模型。实验表明，LongReward 不仅能显著提高模型的长文本性能，还能增强它们遵循短指令的能力。他们还发现，带有 LongReward 的长文本 DPO 和传统的短文本 DPO 可以同时使用，而不会影响任何一方的性能。

论文链接： https://arxiv.org/abs/2410.21252 GitHub 地址： https://github.com/THUDM/LongReward

2. 用于乳腺癌综合预后的多模态人工智能

乳腺癌的治疗选择以分子亚型和临床特征为指导。复发风险评估在个性化治疗中起着至关重要的作用。包括基因组检测在内的现有方法准确性和临床实用性有限，导致许多患者无法做出最佳决定。

来自 Ataraxis AI 的研究团队及其合作者利用开发了一种基于数字病理学和临床特征的乳腺癌患者分层测试。具体来说，他们利用基于 vision transformer 的泛癌症基础模型，通过自监督学习训练，从数字化的 H&E 染色切片中提取特征。这些特征与临床数据相结合，形成了预测癌症复发和死亡的多模态人工智能测试。

该测试的开发和评估使用了来自 7 个国家 15 个队列共 8161 名乳腺癌患者的数据。其中，来自五个队列的 3502 名患者专门用于评估，其余患者用于训练。他们的测试准确预测了五个外部队列的主要疗效指标 - 无病生存期（C-指数：0.71 [0.68-0.75]，HR：3.63 [3.02-4.37，p<0.01]）。在直接比较中（858 人），人工智能检测比标准 21 基因检测 Oncotype DX 更准确，C 指数分别为 0.67 [0.61-0.74] 和 0.61 [0.49-0.73]。此外，在多变量分析中，人工智能检验还为 Oncotype DX 增加了独立信息（HR：3.11 [1.91-5.09，p<0.01)]）。该检验在包括 TNBC 在内的所有主要乳腺癌亚型中都表现出了很高的准确性（C-指数：0.71 [0.62-0.81]，HR：3.81 [2.35-6.17，p=0.02]），而目前临床指南并未推荐任何诊断工具。

这些结果表明，他们的人工智能检测可以提高准确性，适用于更广泛的患者，并提高治疗选择工具的可及性。

论文链接： https://arxiv.org/abs/2410.21256

3. Kandinsky-3：一种新型文生图扩散模型

文生图（T2I）扩散模型是引入图像处理方法的常用模型，如编辑、图像融合、图像修复等。同时，图生视频（I2V）和文生视频（T2V）模型也建立在 T2I 模型之上。来自 SberAI 的研究团队及其合作者推出了一种基于潜在扩散的新型 T2I 模型——Kandinsky 3，其具有很高的质量和逼真度。

新架构的主要特点是简单高效，可适应多种类型的生成任务。他们针对各种应用扩展了基础 T2I 模型，并创建了一个多功能生成系统，其中包括文本引导的补画/扩画、图像融合、文本图像融合、图像变化生成、I2V 和 T2V 生成。他们还提出了经过提炼的 T2I 模型版本，在不降低图像质量的情况下，在反向流程的 4 个步骤中对推理进行评估，速度比基本模型快 3 倍。他们部署了一个用户友好型演示系统，所有功能都可以在公共领域进行测试。

此外，他们还发布了 Kandinsky 3 和扩展模型的源代码和检查点。人工评估结果显示，Kandinsky 3 是开源生成系统中质量得分最高的系统之一。

论文链接： https://arxiv.org/abs/2410.21061 GitHub 地址： https://github.com/ai-forever/Kandinsky-3

4. Meta 推出 MarDini：用于大规模视频生成的掩码自回归扩散

来自 Meta 和阿卜杜拉国王科技大学的研究团队推出了 MarDini，一种新的视频扩散模型系列，将掩码自回归（MAR）的优势整合到统一的扩散模型（DM）框架中。在这里，MAR 处理时间规划，而 DM 侧重于非对称网络设计中的空间生成：基于 MAR 的规划模型包含大部分参数，使用低分辨率输入为每个屏蔽帧生成规划信号；轻量级生成模型使用这些信号，通过扩散去噪生成高分辨率帧。

8 篇必读的大模型论文精选

1. LongReward：利用 AI 反馈改进长文本大语言模型

2. 用于乳腺癌综合预后的多模态人工智能

3. Kandinsky-3：一种新型文生图扩散模型

4. Meta 推出 MarDini：用于大规模视频生成的掩码自回归扩散

更多推荐文章

相关免费在线工具

5. 用于分子 - 靶标和特性预测的多视图生物医学基础模型

6. 综述：人工智能生成视频评估

7. 综述：一文读懂小语言模型 SLM

8. 马里兰大学推出新型视频 tokenizer LARP

更多推荐文章

相关免费在线工具

8 篇必读的大模型论文精选

1. LongReward：利用 AI 反馈改进长文本大语言模型

2. 用于乳腺癌综合预后的多模态人工智能

3. Kandinsky-3：一种新型文生图扩散模型

4. Meta 推出 MarDini：用于大规模视频生成的掩码自回归扩散

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 用于分子 - 靶标和特性预测的多视图生物医学基础模型

6. 综述：人工智能生成视频评估

7. 综述：一文读懂小语言模型 SLM

8. 马里兰大学推出新型视频 tokenizer LARP

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具