最近又攒了一批大模型方向的论文,覆盖智能体、扩散模型微调、长上下文、推理、国际象棋、化学、通用计算机控制、交互式基础模型、游戏 AI 以及可控视频生成。都很有意思,挑出 12 篇聊一聊。
UFO:第一个在 Windows 上干活儿的 UI 智能体
微软放出的 UFO,思路是利用 GPT-Vision 的眼光去'看' Windows 应用界面,再配合一套双智能体框架去操作界面上的控件。它能在单个应用和多个应用之间完成用户指令,把一些繁琐操作变成一句自然语言的事儿。测试覆盖了 9 个常用 Windows 应用,效果不错。这大概是第一个专门为 Windows 操作系统定制的 UI 智能体。
论文链接:https://arxiv.org/abs/2402.07939
SPIN-Diffusion:让扩散模型自己和自己下棋
扩散模型的微调通常靠监督学习,数据喂到一定程度后提升就变得很慢。加州大学洛杉矶分校的团队借鉴了自我博弈的想法,让模型和它之前的版本去比,人类偏好数据只用来判断哪张图更好。在 Pick-a-Pic 数据集上,第二次迭代就已经在各项指标上超过了基于 RLHF 的方法,而且需要的数据更少。
论文链接:https://arxiv.org/abs/2402.10210
ReadAgent:一个能把上下文读长 20 倍的智能体
长上下文对大模型来说不光有硬限制,处理长文本的能力也经常不行。Google DeepMind / Research 的做法是模仿人类读完一段就记个'大意',把这些要点存成 gist memories,需要细节时再回头查原始文本。在三项长文档阅读理解任务上,ReadAgent 的有效上下文窗口比基线扩了 3 到 20 倍。
论文链接:https://arxiv.org/abs/2402.09727
没有提示词,模型自己也能推理
思维链通常靠人为设计 prompt 来触发,但这篇 DeepMind 的工作发现,只要换个解码方式——不再贪心地只取概率最高的 token,而是看看前 K 个备选——CoT 推理路径自己就会冒出来。他们还在不同推理基准上验证了,这种'CoT 解码'比标准贪心解码好不少。
论文链接:https://arxiv.org/abs/2402.10200
不用搜索,纯靠 2.7 亿参数下国际象棋
DeepMind 又搞了个狠活:在一个用 Stockfish 16 打了行动值标签的 1000 万盘棋局数据集上,训练一个 2.7 亿参数的 Transformer,完全不依赖搜索或复杂启发式。最大模型在 Lichess 快棋上 Elo 达到 2895,超过了 AlphaZero 的策略/价值网络以及 GPT-3.5-turbo-instruct。这事的关键是规模,小模型根本不行。
论文链接:https://arxiv.org/abs/2402.04494
ChemLLM:化学领域的对话大模型
上海人工智能实验室做的一个化学专用对话模型。化学数据和知识很多都锁在结构化数据库里,直接拿来训练会破坏对话连贯性。他们搞了一套基于模板的指令构造方法,把结构化知识变成自然对话。ChemLLM 在名称转换、分子标题、反应预测三项任务上都优于 GPT-3.5,其中两项还超过了 GPT-4,顺便在数学和物理任务上也有还行。
论文链接:https://arxiv.org/abs/2402.06852
OS-Copilot / FRIDAY:会自我完善的通用计算机智能体
多数智能体只针对特定软件设计,这个框架想做一个能在整个操作系统中交互的家伙——包括网络、代码终端、文件、多媒体和第三方应用。基于它造出来的 FRIDAY 在通用人工智能助手基准 GAIA 上比之前的方法高出 35%,还能自己学用 Excel 和 PowerPoint。


