Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

综述由AI生成Hugging Face 团队基于 DeepMind 研究，开源了扩展测试时计算的方法。通过在 Llama 1B 和 3B 模型上应用多样化验证器树搜索（DVTS）等策略，小模型在数学基准测试中的表现显著超越更大参数量的模型，甚至超过计算机科学博士生平均水平。文章详细对比了 Best-of-N、Beam Search 与 DVTS 三种搜索策略的实验结果，指出动态分配策略结合过程奖励模型能有效提升推理质量，为开源社区提供了轻量级模型增强推理能力的技术路径。同时探讨了成本效益及未来在结构化推理和数据合成方面的扩展方向。

KernelLab发布于 2025/2/6更新于 2026/6/218 浏览

Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

OpenAI 的 o1 系列模型展示了推理能力的新高度，其核心在于扩展了测试时的计算资源。尽管 OpenAI 未公开具体实现细节，但 Hugging Face 团队基于 DeepMind 的研究成果，成功逆向工程并开源了相关的扩展测试时计算方法。实验表明，将这一方法应用于轻量级模型（如 Llama 1B/3B），其数学推理性能可超越参数量大得多的模型，甚至达到计算机科学博士生的平均水平。

背景：Scaling Law 的新范式

传统的 Scaling Laws（缩放定律）主要关注模型参数规模、数据量与计算预算之间的关系。然而，o1 及其后续研究揭示了一种新的范式：在推理阶段增加计算量（Test-time Compute）可以显著提升模型表现，而无需增加训练时的参数规模。

这种"扩展测试时计算"的方法允许模型在生成答案的过程中进行自我反思、搜索验证或迭代优化。Hugging Face 团队在此基础上进行了改进，提出了更适用于开源生态的实现方案。

核心策略：多样化验证器树搜索

目前扩展测试时计算主要有两种策略：自我优化和搜索。

1. 自我优化 (Self-Optimization)

模型识别并纠正后续迭代中的错误来优化输出。虽然对某些任务有效，但这通常要求模型具备内置的自我优化机制，限制了其在通用场景下的适用性。

2. 搜索方法 (Search Methods)

侧重于生成多个候选答案并使用验证器选择最佳答案。这种方法更灵活，能适应不同难度的问题。Hugging Face 的研究主要聚焦于搜索方法，特别是结合可学习的验证器（Verifier）。

研究中重点介绍了三种搜索策略：

Best-of-N

为每个问题生成 N 个响应，使用奖励模型为每个候选答案分配分数，选择分数最高的答案。该方法强调答案质量而非频率。分为原版（Vanilla）和加权版（Weighted）。加权版汇总所有结果相同的答案，选择总分数最高的，在算力预算充足时表现更佳。

Beam Search

一种系统探索解决方案空间的方法，通常与过程奖励模型（PRM）结合。传统奖励模型仅在最终答案上产生单个分数，而 PRM 为推理过程的每个中间步骤分配分数，提供精细反馈。这使 PRM 非常适合大模型的推理优化。

多样化验证器树搜索 (DVTS)

这是新开发的 Beam Search 变体。它将初始 Beam 拆分为独立的子树，然后使用 PRM 做贪婪扩展。具体流程如下：

对于给定的 Beam 宽度 M 和生成数量 N，初始 Beam 集设定为 N/M 个独立子树。
对于每个子树，选择 PRM 分数最高的步骤。
生成 M 个新的下一步，继续选择分数最高的。
重复此过程，直到生成 EOS token 或达到最大深度。

这种方法显著提高了解决方案的多样性，特别是在测试时算力预算较大的情况下。

实验设置

为了验证上述策略的有效性，研究使用了以下配置：

语言模型：Llama-3.2-1B-Instruct。选择轻量级模型是为了快速迭代，且其在数学基准测试中尚未饱和，便于观察提升效果。
流程奖励模型 (PRM)：Llama3.1-8B-PRM-Deepseek-Data。与语言模型同属一个系列，且在测试中给出了更好的结果。
数据集：MATH-500。由 OpenAI 发布的数学问题子集，横跨 7 个科目，对人类和大多数模型都具有挑战性。

实验结果与分析

动态分配策略最优

实验对比了多种搜索策略的表现：

多数投票策略：相比贪婪解码基线有显著改进，收益在 N=64 后趋于稳定。限制在于难以解决需要细致推理的问题，或当多个答案都错向同一方向时。
Best-of-N：加入奖励模型后表现提高。加权版始终优于原版，确保了频率较低但质量较高的答案也能被选中。
Beam Search：让 1B 模型表现开始高于 8B 模型。但在简单问题上不如 Best-of-N。研究发现，如果一个中间步骤获得高分，整个树可能坍塌到这一步，影响多样性。
：改进了答案多样性。在 N 较大时增强了对简单/中等难度问题的性能。而 Beam Search 在 N 较小时表现最好。

Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

背景：Scaling Law 的新范式

核心策略：多样化验证器树搜索

1. 自我优化 (Self-Optimization)

2. 搜索方法 (Search Methods)

Best-of-N

Beam Search

多样化验证器树搜索 (DVTS)

实验设置

实验结果与分析

动态分配策略最优

更多推荐文章

相关免费在线工具

性能突破

未来展望与挑战

成本与部署考量

开源资源

更多推荐文章

相关免费在线工具

Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

Hugging Face 复现 o1 策略：Llama 3B 模型通过扩展测试时计算超越 80B 模型

背景：Scaling Law 的新范式

核心策略：多样化验证器树搜索

1. 自我优化 (Self-Optimization)

2. 搜索方法 (Search Methods)

Best-of-N

Beam Search

多样化验证器树搜索 (DVTS)

实验设置

实验结果与分析

动态分配策略最优

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

性能突破

未来展望与挑战

成本与部署考量

开源资源

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具