大模型前沿：8 篇必读论文

谷歌提出「扩散模型的推理时扩展」

生成式模型在各个领域都产生了重大影响，这主要归功于它们在训练过程中通过增加数据、计算资源和模型大小来扩展的能力，即遵循 scaling laws。最近的研究已开始探索大语言模型（LLM）的推理时扩展，揭示了在推理过程中如何通过额外的计算进一步提高性能。与 LLM 不同，扩散模型本身具有灵活性，可以通过去噪步骤的数量来调整推理时的计算量，不过性能提升通常在几十步之后就会趋于平稳。

在这项工作中，谷歌团队探索了扩散模型在增加去噪步数后的推理时扩展，并研究了生成性能如何随着计算量的增加而进一步提高。具体来说，他们考虑了一个搜索问题，旨在为扩散采样过程确定更好的噪声。他们从两个方向构建设计空间：用于提供反馈的校验器，以及用于寻找更好候选噪声的算法。

通过在类约束和文本约束图像生成基准上进行大量实验，他们的研究结果表明，增加推理时的计算量可大幅提高扩散模型生成样本的质量，而且由于图像的复杂性，可以根据不同的应用场景，有针对性地选择框架中的组件组合。

论文链接： https://arxiv.org/abs/2501.09732

OmniThink：通过思考拓展机器写作知识边界

使用大语言模型（LLM）的机器写作通常依赖于检索增强生成（RAG）。然而，这些方法仍然局限于模型预定义的范围内，限制了具有丰富信息的内容的生成。具体来说，虚无的检索信息往往缺乏深度和实用性，并且存在冗余，这对生成文章的质量产生了负面影响，导致输出内容肤浅、重复和缺乏原创性。

为了解决这些问题，来自浙江大学和阿里的团队推出了一个模拟人类思维迭代扩展与反思过程的机器写作框架——OmniThink。OmniThink 背后的核心理念是模拟学习者在逐步加深对主题的了解时的认知行为。

实验结果表明，OmniThink 能够在不牺牲连贯性和深度等指标的情况下，提升生成文章的知识密度。人类评估和专家反馈进一步强调了 OmniThink 在解决长篇文章生成中实际问题方面的潜力。

论文地址： https://arxiv.org/abs/2501.09751 项目地址： https://zjunlp.github.io/project/OmniThink/

Meta 推出增强型 tokenization ViT 架构

通过自动编码技术进行视觉 tokenization，可以将像素压缩到潜在空间，从而增强 SOTA 图像和视频生成模型的能力。尽管对基于 transformer 的生成器进行扩展已经成为近期的研究重点，但 tokenizer 组件本身却很少进行扩展，这就给自动编码器的设计选择如何影响其重建目标和下游生成性能留下了未决的问题。

在这项工作中，来自得克萨斯大学奥斯汀分校和 Meta 的研究团队旨在对自动编码器的扩展进行探索，以填补这一空白。为了促进这一探索，他们用增强型 tokenization ViT 架构（ViTok）取代了典型的卷积骨干。他们在远超 ImageNet-1K 的大规模图像和视频数据集上训练 ViTok，消除了 tokenizer 扩展方面的数据限制。

他们首先研究了自动编码器瓶颈的扩展如何影响重构和生成，发现它虽然与重构高度相关，但与生成的关系更为复杂。接下来，他们探讨了分别扩展自动编码器的编码器和解码器对重构和生成性能的影响。重要的是，他们发现扩大编码器的规模对重构或生成的增益都很小，而扩大解码器的规模可提高重构性能，但对生成的增益则较为复杂。

在探索的基础上，他们将 ViTok 设计为轻量级自动编码器，其在 ImageNet-1K 和 COCO 重建任务（256p 和 512p）上的性能可与其他 SOTA 自动编码器相媲美，同时在 UCF-101 的 16 帧 128p 视频重建上的性能优于现有的自动编码器，同时减少了 2-5 倍的 FLOP。与扩散 transformer 集成后，ViTok 在 ImageNet-1K 的图像生成方面表现出极具竞争力的性能，并在 UCF-101 的类条件视频生成方面树立了 SOTA 基准。

论文链接： https://arxiv.org/abs/2501.09755 项目地址： https://vitok.github.io

综述：大推理模型 LRM

长期以来，语言一直被视为人类推理的重要工具。大语言模型（LLM）的突破引发了人们对利用这些模型解决复杂推理任务的兴趣。相关研究已经超越了简单的自回归 token 生成，引入了'思维'的概念，即代表推理过程中间步骤的 token 序列。这种创新范式使 LLM 能够模仿复杂的人类推理过程，如树搜索和反思性思维。

最近，一种新兴的推理学习趋势是应用强化学习（RL）来训练 LLM 掌握推理过程。这种方法可以通过试错搜索算法自动生成高质量的推理轨迹，通过提供更多的训练数据来显著提高 LLM 的推理能力。此外，最近的研究表明，鼓励 LLM 在测试时推理使用更多 token 进行'思考'，可以进一步显著提高推理的准确性。因此，训练时和测试时的扩展相结合，展现出一个新的研究前沿——一条通往大推理模型的道路。OpenAI o1 系列的推出是这一研究方向的重要里程碑。

大模型前沿：8 篇必读论文

谷歌提出「扩散模型的推理时扩展」

OmniThink：通过思考拓展机器写作知识边界

Meta 推出增强型 tokenization ViT 架构

综述：大推理模型 LRM

更多推荐文章

相关免费在线工具

Google DeepMind：视频大模型可以通过观看视频学到物理原理吗？

FAST：视觉 - 语言 - 动作模型的高效动作 tokenizer

SynthLight：利用扩散模型进行人像重光照

阿里团队提出个性化主体生成方法 AnyStory

更多推荐文章

相关免费在线工具

大模型前沿：8 篇必读论文

谷歌提出「扩散模型的推理时扩展」

OmniThink：通过思考拓展机器写作知识边界

Meta 推出增强型 tokenization ViT 架构

综述：大推理模型 LRM

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Google DeepMind：视频大模型可以通过观看视频学到物理原理吗？

FAST：视觉 - 语言 - 动作模型的高效动作 tokenizer

SynthLight：利用扩散模型进行人像重光照

阿里团队提出个性化主体生成方法 AnyStory

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具