最近翻看了一些刚挂出来的论文,挑几篇我觉得思路不错的,整理在这里。
1. LongReward:用 AI 反馈拉扯长文本模型的长板
长文本 LLM 的 SFT 数据质量是个老问题,RL 看起来是条路,但长文本场景下的奖励信号不好定义。LongReward 的思路很直接:拿现成的 LLM 从帮助性、逻辑性、忠实度、完整性四个维度来打分,每个维度都设计了一套评估 pipeline。结合离线 RL 的 DPO 算法,把长文本 SFT 模型再往上拔一截。
实验下来,不仅长文本性能上去了,短指令的能力也顺带变强了。有意思的是,长文本 DPO 和传统短文本 DPO 可以一起训,互不拖累。
论文:https://arxiv.org/abs/2410.21252
代码:https://github.com/THUDM/LongReward
2. 多模态 AI 预测乳腺癌复发:比 21 基因检测更准
乳腺癌治疗决策很依赖分子分型和风险评估,但现有的基因检测准确性有限,很多患者其实没拿到最优方案。这项工作搞了个多模态测试,把数字病理图像(H&E 切片)和临床特征揉在一起。用 ViT 类的泛癌基础模型做自监督预训练提取图像特征,再拼接临床数据,直接预测复发和死亡风险。
数据量不小,7 个国家 15 个队列 8161 例。在五个外部队列上,无病生存期的 C-index 跑到了 0.71,HR 3.63,p<0.01。直接跟 Oncotype DX(21 基因检测)对比,858 人的子集里 AI 测试 C-index 0.67,Oncotype 0.61,而且多变量分析里 AI 还能提供独立预后信息。更难得的是,在三阴性乳腺癌这种现在没有推荐预后工具的分型里,表现也稳得住(C-index 0.71)。
论文:https://arxiv.org/abs/2410.21256
3. Kandinsky 3:开源文生图模型的新选择
SberAI 放出了一个新 T2I 模型 Kandinsky 3,基于潜扩散,主打高质量和高保真。架构简单高效,还能扩展出一整套生成系统:文本引导的补画、扩画、图像融合、文本图像融合、图像变体、I2V 和 T2V 都通吃。
他们还塞了个蒸馏版本,推理只用 4 步,速度是基础模型的 3 倍,质量也没掉。代码和权重全部开源,演示系统也上线了,人工评估里 Kandinsky 3 在开源模型里质量分属第一梯队。
论文:https://arxiv.org/abs/2410.21061
代码:https://github.com/ai-forever/Kandinsky-3
4. MarDini:Meta 把掩码自回归塞进视频扩散模型
MarDini 把掩码自回归(MAR)和扩散模型(DM)揉进了一个非对称框架:MAR 负责时间规划,用大头参数在低分辨率上给每个掩码帧生成规划信号;轻量的 DM 再用这些信号通过扩散去噪生成高分辨率帧。
这种设计让一个模型就能处理视频插帧、图生视频、视频扩展——任意位置、任意数量的掩码帧都行。大部分算力砸在低分辨率规划模型上,时空注意力终于能大规模跑起来了。视频插帧直接刷到新 SOTA,图生视频的效率也跟一些昂贵的先进模型打得有来有回。
论文:https://arxiv.org/abs/2410.20280
项目:https://mardini-vidgen.github.io/
5. 用多视图基础模型做分子属性预测和靶标筛选
做药物发现的基础模型很多,但多数只盯住分子的一种表征。这个工作把图、图像、文本三种视图分别预训练(数据量达 2 亿分子),再聚合成组合表征,然后在配体-蛋白结合、溶解度、代谢、毒性等 18 个任务上验证。
多视图模型的优势是能平衡各个视图的短板。他们把它用到超过 100 个 GPCR 靶点的化合物筛选里,从中揪出 33 个与阿尔茨海默病相关的靶点,又用这个模型识别强结合体,最后通过基于结构的建模做了一轮验证。


