近期读到的一些大模型论文：从 Windows 智能体到可导演的视频生成

最近又攒了一批大模型方向的论文，覆盖智能体、扩散模型微调、长上下文、推理、国际象棋、化学、通用计算机控制、交互式基础模型、游戏 AI 以及可控视频生成。都很有意思，挑出 12 篇聊一聊。

UFO：第一个在 Windows 上干活儿的 UI 智能体

微软放出的 UFO，思路是利用 GPT-Vision 的眼光去'看' Windows 应用界面，再配合一套双智能体框架去操作界面上的控件。它能在单个应用和多个应用之间完成用户指令，把一些繁琐操作变成一句自然语言的事儿。测试覆盖了 9 个常用 Windows 应用，效果不错。这大概是第一个专门为 Windows 操作系统定制的 UI 智能体。

论文链接：https://arxiv.org/abs/2402.07939

SPIN-Diffusion：让扩散模型自己和自己下棋

扩散模型的微调通常靠监督学习，数据喂到一定程度后提升就变得很慢。加州大学洛杉矶分校的团队借鉴了自我博弈的想法，让模型和它之前的版本去比，人类偏好数据只用来判断哪张图更好。在 Pick-a-Pic 数据集上，第二次迭代就已经在各项指标上超过了基于 RLHF 的方法，而且需要的数据更少。

论文链接：https://arxiv.org/abs/2402.10210

ReadAgent：一个能把上下文读长 20 倍的智能体

长上下文对大模型来说不光有硬限制，处理长文本的能力也经常不行。Google DeepMind / Research 的做法是模仿人类读完一段就记个'大意'，把这些要点存成 gist memories，需要细节时再回头查原始文本。在三项长文档阅读理解任务上，ReadAgent 的有效上下文窗口比基线扩了 3 到 20 倍。

论文链接：https://arxiv.org/abs/2402.09727

没有提示词，模型自己也能推理

思维链通常靠人为设计 prompt 来触发，但这篇 DeepMind 的工作发现，只要换个解码方式——不再贪心地只取概率最高的 token，而是看看前 K 个备选——CoT 推理路径自己就会冒出来。他们还在不同推理基准上验证了，这种'CoT 解码'比标准贪心解码好不少。

论文链接：https://arxiv.org/abs/2402.10200

不用搜索，纯靠 2.7 亿参数下国际象棋

DeepMind 又搞了个狠活：在一个用 Stockfish 16 打了行动值标签的 1000 万盘棋局数据集上，训练一个 2.7 亿参数的 Transformer，完全不依赖搜索或复杂启发式。最大模型在 Lichess 快棋上 Elo 达到 2895，超过了 AlphaZero 的策略/价值网络以及 GPT-3.5-turbo-instruct。这事的关键是规模，小模型根本不行。

论文链接：https://arxiv.org/abs/2402.04494

ChemLLM：化学领域的对话大模型

上海人工智能实验室做的一个化学专用对话模型。化学数据和知识很多都锁在结构化数据库里，直接拿来训练会破坏对话连贯性。他们搞了一套基于模板的指令构造方法，把结构化知识变成自然对话。ChemLLM 在名称转换、分子标题、反应预测三项任务上都优于 GPT-3.5，其中两项还超过了 GPT-4，顺便在数学和物理任务上也有还行。

论文链接：https://arxiv.org/abs/2402.06852

OS-Copilot / FRIDAY：会自我完善的通用计算机智能体

多数智能体只针对特定软件设计，这个框架想做一个能在整个操作系统中交互的家伙——包括网络、代码终端、文件、多媒体和第三方应用。基于它造出来的 FRIDAY 在通用人工智能助手基准 GAIA 上比之前的方法高出 35%，还能自己学用 Excel 和 PowerPoint。

论文链接：https://arxiv.org/abs/2402.07456

近期读到的一些大模型论文：从 Windows 智能体到可导演的视频生成

UFO：第一个在 Windows 上干活儿的 UI 智能体

SPIN-Diffusion：让扩散模型自己和自己下棋

ReadAgent：一个能把上下文读长 20 倍的智能体

没有提示词，模型自己也能推理

不用搜索，纯靠 2.7 亿参数下国际象棋

ChemLLM：化学领域的对话大模型

OS-Copilot / FRIDAY：会自我完善的通用计算机智能体

更多推荐文章

相关免费在线工具

交互式智能体基础模型：一种新的训练范式

POKÉLLMON：在宝可梦对战里达到人类水平的 LLM 智能体

InteractiveVideo：用户可以在生成过程中随时动手的视频模型

ConsiStory：不用训练也能让同一主角出现在不同图里

Direct-a-Video：你可以分别控制画面里物体怎么动、镜头怎么移

更多推荐文章

相关免费在线工具

近期读到的一些大模型论文：从 Windows 智能体到可导演的视频生成

UFO：第一个在 Windows 上干活儿的 UI 智能体

SPIN-Diffusion：让扩散模型自己和自己下棋

ReadAgent：一个能把上下文读长 20 倍的智能体

没有提示词，模型自己也能推理

不用搜索，纯靠 2.7 亿参数下国际象棋

ChemLLM：化学领域的对话大模型

OS-Copilot / FRIDAY：会自我完善的通用计算机智能体

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

交互式智能体基础模型：一种新的训练范式

POKÉLLMON：在宝可梦对战里达到人类水平的 LLM 智能体

InteractiveVideo：用户可以在生成过程中随时动手的视频模型

ConsiStory：不用训练也能让同一主角出现在不同图里

Direct-a-Video：你可以分别控制画面里物体怎么动、镜头怎么移

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具