DeepSeek 复现狂潮：低成本强化学习实现开源推理 | 极客日志

PythonAI算法

DeepSeek 复现狂潮：低成本强化学习实现开源推理

综述由AI生成DeepSeek R1 引发全球复现热潮，UC 伯克利 TinyZero、港科大 SimpleRL 及 HuggingFace Open R1 等项目展示了低成本强化学习复现大模型推理能力的成果。实验证明无需监督微调，仅需少量样本和纯 RL 即可实现自我验证与搜索，大幅降低算力门槛，推动开源生态发展。

心动瞬间发布于 2025/2/7更新于 2026/6/220 浏览

DeepSeek 复现狂潮：低成本强化学习实现开源推理

就在近期，全球技术社区掀起了一波复现 DeepSeek R1 的浪潮。UC 伯克利、港科大（HKUST）、HuggingFace 等机构纷纷成功复现相关模型，仅使用强化学习（RL），无需监督微调（SFT），成本低至 30 美元即可见证模型的「顿悟时刻」。这一趋势表明，全球 AI 大模型或许正在进入一个新的分水岭。

硅谷近期深受中国公司带来的技术变革影响。全美业界都在关注：人工智能的中心是否已经转移？在此背景下，全球复现 DeepSeek 的狂潮随之而来。正如 Yann LeCun 所言：「这一次，正是开源对闭源的胜利！」

DeepSeek 复现实验结果展示

在没有顶级芯片的情况下，以极低成本芯片训练出突破性模型的 DeepSeek，可能对现有的算力霸权构成挑战。大模型比拼的不再是动辄千万亿美元的算力战，OpenAI、Meta、谷歌等大公司引以为傲的技术优势和高估值面临考验，英伟达的股价也可能因此动摇。种种观点让人不禁怀疑：数百亿美元的支出对这个行业真的必要吗？甚至有分析认为，中国量化基金的天才团队可能导致纳斯达克市场波动。

从此，大模型时代很可能会进入一个分水岭：超强性能的模型不再独属于算力巨头，而是属于每个人。

30 美金，见证「啊哈」时刻

来自 UC 伯克利博士生潘家怡和另外两位研究人员，在 CountDown 游戏中复现了 DeepSeek R1-Zero。他们表示，结果相当出色！实验中，团队验证了通过强化学习 RL，3B 的基础语言模型也能够自我验证和搜索。

更令人兴奋的是，成本不到 30 美金（约 217 元），就可以亲眼见证「啊哈」时刻。该项目叫做 TinyZero，采用了 R1-Zero 算法——给定一个基础语言模型、提示和真实奖励信号，运行强化学习。

团队将其应用在 CountDown 游戏中（这是一个玩家使用基础算术运算，将数字组合以达到目标数字的游戏）。模型从最初的简单输出开始，逐步进化出自我纠正和搜索的策略。在以下示例中，模型提出了解决方案，自我验证，并反复纠正，直到解决问题为止。

TinyZero 模型自我验证过程

在消融实验中，研究人员运行了 Qwen-2.5-Base（0.5B、1.5B、3B、7B 四种参数规模）。结果发现，0.5B 模型仅仅是猜测一个解决方案然后停止。而从 1.5B 开始，模型学会了搜索、自我验证和修正其解决方案，从而能够获得更高的分数。他们认为，在这个过程，基础模型的性能是关键。

Qwen 系列模型性能对比

他们还验证了，额外的指令微调（SFT）并非是必要的，这也印证了 R1-Zero 的设计决策。这是首个验证 LLM 推理能力的实现可以纯粹通过 RL，无需监督微调的开源研究。

基础模型和指令模型的区别：

指令模型运行速度快，但最终表现与基础模型相当
指令输出的模型更具结构性和可读性

此外，他们还发现，具体的 RL 算法并不重要。PPO、GRPO、PRIME 这些算法中，长思维链（Long CoT）都能够涌现，且带来不错的性能表现。

而且，模型在推理行为中非常依赖于具体的任务：对于 Countdown 任务，模型学习进行搜索和自我验证；对于数字乘法任务，模型反而学习使用分布规则分解问题，并逐步解决。

苹果机器学习科学家 Yizhe Zhang 对此表示，太酷了，小到 1.5B 的模型，也能通过 RL 涌现出自我验证的能力。

7B 模型复刻，结果令人惊讶

港科大助理教授何俊贤的团队（共同一作黄裕振、Weihao Zeng），只用了 8K 个样本，就在 7B 模型上复刻出了 DeepSeek-R1-Zero 和 DeepSeek-R1 的训练。结果令人惊喜——模型在复杂的数学推理上取得了十分强劲的结果。

项目地址：https://github.com/hkust-nlp/simpleRL-reason