近期值得关注的8篇大模型论文

最近翻看了一些刚挂出来的论文，挑几篇我觉得思路不错的，整理在这里。

1. LongReward：用 AI 反馈拉扯长文本模型的长板

长文本 LLM 的 SFT 数据质量是个老问题，RL 看起来是条路，但长文本场景下的奖励信号不好定义。LongReward 的思路很直接：拿现成的 LLM 从帮助性、逻辑性、忠实度、完整性四个维度来打分，每个维度都设计了一套评估 pipeline。结合离线 RL 的 DPO 算法，把长文本 SFT 模型再往上拔一截。

实验下来，不仅长文本性能上去了，短指令的能力也顺带变强了。有意思的是，长文本 DPO 和传统短文本 DPO 可以一起训，互不拖累。

论文：https://arxiv.org/abs/2410.21252
代码：https://github.com/THUDM/LongReward

2. 多模态 AI 预测乳腺癌复发：比 21 基因检测更准

乳腺癌治疗决策很依赖分子分型和风险评估，但现有的基因检测准确性有限，很多患者其实没拿到最优方案。这项工作搞了个多模态测试，把数字病理图像（H&E 切片）和临床特征揉在一起。用 ViT 类的泛癌基础模型做自监督预训练提取图像特征，再拼接临床数据，直接预测复发和死亡风险。

数据量不小，7 个国家 15 个队列 8161 例。在五个外部队列上，无病生存期的 C-index 跑到了 0.71，HR 3.63，p<0.01。直接跟 Oncotype DX（21 基因检测）对比，858 人的子集里 AI 测试 C-index 0.67，Oncotype 0.61，而且多变量分析里 AI 还能提供独立预后信息。更难得的是，在三阴性乳腺癌这种现在没有推荐预后工具的分型里，表现也稳得住（C-index 0.71）。

论文：https://arxiv.org/abs/2410.21256

3. Kandinsky 3：开源文生图模型的新选择

SberAI 放出了一个新 T2I 模型 Kandinsky 3，基于潜扩散，主打高质量和高保真。架构简单高效，还能扩展出一整套生成系统：文本引导的补画、扩画、图像融合、文本图像融合、图像变体、I2V 和 T2V 都通吃。

他们还塞了个蒸馏版本，推理只用 4 步，速度是基础模型的 3 倍，质量也没掉。代码和权重全部开源，演示系统也上线了，人工评估里 Kandinsky 3 在开源模型里质量分属第一梯队。

论文：https://arxiv.org/abs/2410.21061
代码：https://github.com/ai-forever/Kandinsky-3

4. MarDini：Meta 把掩码自回归塞进视频扩散模型

MarDini 把掩码自回归（MAR）和扩散模型（DM）揉进了一个非对称框架：MAR 负责时间规划，用大头参数在低分辨率上给每个掩码帧生成规划信号；轻量的 DM 再用这些信号通过扩散去噪生成高分辨率帧。

这种设计让一个模型就能处理视频插帧、图生视频、视频扩展——任意位置、任意数量的掩码帧都行。大部分算力砸在低分辨率规划模型上，时空注意力终于能大规模跑起来了。视频插帧直接刷到新 SOTA，图生视频的效率也跟一些昂贵的先进模型打得有来有回。

论文：https://arxiv.org/abs/2410.20280
项目：https://mardini-vidgen.github.io/

5. 用多视图基础模型做分子属性预测和靶标筛选

做药物发现的基础模型很多，但多数只盯住分子的一种表征。这个工作把图、图像、文本三种视图分别预训练（数据量达 2 亿分子），再聚合成组合表征，然后在配体-蛋白结合、溶解度、代谢、毒性等 18 个任务上验证。

多视图模型的优势是能平衡各个视图的短板。他们把它用到超过 100 个 GPCR 靶点的化合物筛选里，从中揪出 33 个与阿尔茨海默病相关的靶点，又用这个模型识别强结合体，最后通过基于结构的建模做了一轮验证。

近期值得关注的8篇大模型论文

1. LongReward：用 AI 反馈拉扯长文本模型的长板

2. 多模态 AI 预测乳腺癌复发：比 21 基因检测更准

3. Kandinsky 3：开源文生图模型的新选择

4. MarDini：Meta 把掩码自回归塞进视频扩散模型

5. 用多视图基础模型做分子属性预测和靶标筛选

更多推荐文章

相关免费在线工具

6. 综述：AI 生成视频该怎么评估？

7. 综述：小语言模型怎么搞才高效

8. LARP：换个路子做视频 tokenizer

更多推荐文章

相关免费在线工具

近期值得关注的8篇大模型论文

1. LongReward：用 AI 反馈拉扯长文本模型的长板

2. 多模态 AI 预测乳腺癌复发：比 21 基因检测更准

3. Kandinsky 3：开源文生图模型的新选择

4. MarDini：Meta 把掩码自回归塞进视频扩散模型

5. 用多视图基础模型做分子属性预测和靶标筛选

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. 综述：AI 生成视频该怎么评估？

7. 综述：小语言模型怎么搞才高效

8. LARP：换个路子做视频 tokenizer

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具