DeepSeek 常见误读与行业影响分析
最近 DeepSeek 成为全球最热门的话题,甚至没有之一。无论是北美、欧洲,各大 IT 巨头、投资机构、政府官员,乃至脱口秀演员,都在不断提及这个话题。国内自媒体也享受了一批流量盛宴。但在这些信息的不断传播和讨论中,鉴于流量的偏好,或者说公众的偏好,在很多自媒体和非专业人士的报道和解读中,一些关键信息存在较多的误导。
我觉得这个话题甚至可以作为一个认知能力的评判标准。我所理解的合理认知是,所谓掐头去尾。所谓头和尾是什么?过度神话,以及无脑贬低。
1. 过度神话
我旧文其实也说到了,它非常棒,对行业发展的促进价值是值得肯定的,但谈及颠覆,还为时尚早。一些专业测评来看,在一些关键问题的解决上,并没有超越 ChatGPT。比如我看到有人测试,模拟典型的小球在封闭空间的弹跳代码,DeepSeek 编写出来的程序表现,和 ChatGPT o3-mini 相比,从物理学的遵循度角度来看,还是有差距。
当然,我没有亲测,单一案例也许不能证明太多,但至少目前看到的多个测评来说,最多只能说各有千秋,DeepSeek 还不能说实现了反超。AI 大模型的能力评估是一个多维度的过程,包括逻辑推理、代码生成、多模态理解等,单一维度的优势不足以定义整体超越。许多评测显示,在复杂数学推理和长文本处理上,头部闭源模型依然保持领先优势。因此,对于技术团队而言,选择模型应基于具体业务场景的实测结果,而非盲目追求最新热点。
2. 无脑贬低
不要过度神话它,但无脑贬低也是很扯淡的事情。微软说 DeepSeek 蒸馏了 ChatGPT 的结果,所以一些人也借题发挥,把 DeepSeek 贬低的一钱不值。这个事情该怎么看?那么一些证据也是有的,比如你问 DeepSeek 自己是谁,它会说自己是 ChatGPT,从某种意义来说,这个很有可能是他们采纳了一些 ChatGPT 的一些语料信息训练,但如果你说他们的成就是基于蒸馏 ChatGPT 的,我是不信的。
根据我的测试,DeepSeek 答案的脑洞很大,很多问题的解答会比 ChatGPT 发散,而我所理解的蒸馏,通常是为了提升效率,会带来更收敛的结果。我的个人判断是,DeepSeek 的训练中,可能部分利用了一些蒸馏的语料信息,或者做了少许的蒸馏验证,但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了,复现和测试也很容易,全球做 AI 大模型的专家已经人手一份在研究了,就此而言,在这个环节上翻车的概率极低。
但我也认同一个事实,基于领先模型蒸馏验证优化自己的模型,是很多大模型团队的一个常规操作,但毕竟需要联网 API,能获得的信息非常有限,不太可能是决定性的影响因素,相对于海量的互联网数据信息来说,通过 API 调用领先大模型能获得的语料杯水车薪,合理的猜测是更多用于对策略的验证分析,而不是直接用作大规模训练。所有大模型都需要从互联网获得语料训练,而领先的大模型也在不断为互联网贡献语料,从这个角度来说,每个领先的大模型都摆脱不了被采集,被蒸馏的宿命,但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我,我中有你,迭代前进。
3. 成本优势
关于 DeepSeek 成本优势这块,误读是最多的,也是最容易去写段子,打鸡血的,所谓中国创业公司不到 600 万美元干翻所有巨头,各种自媒体喜欢这样讲,普通老百姓也分辨不了。那么实际上,这个数据的来源是 DeepSeek 论文里提到的数据,而人家论文提到的数据是有前提的,就是最终版本的训练成本。人家说的这个前提很清楚,没有包括研发成本,前期硬件购置成本,以及前期测试和迭代的训练成本,只是最终版本的训练成本,或者说,你拿着人家开源代码,你有对方完整语料,去做完整复现的算力成本。
我举个例子你们就明白了,这就好比告诉你配方和生产流程,你去做仿制药的成本(还不包括人工),但是原研药的成本是仿制药的多少倍,稍微懂点行的都知道吧。很多硅谷大佬出来说这个事,国内的人会认为这些大佬在贬低 DeepSeek,其实很多真不是,他们也要给自己团队找点场子对吧,自己投入几十亿美金,被中美两边的老百姓们嘲笑,要对公众澄清一点,DeepSeek 真实成本绝对不是几百万美金,我们这些巨头投入的几十亿美金也不是因为我们人傻对吧,所以很多大佬其实只是澄清事实,为自己的团队正名而已。
但硅谷某些人的言论我也是不太认同的,说 DeepSeek 有五万张 H100,投入十几亿到二十亿美金,这个我还真不信,我觉得这就是另一个极端了。我给读者们算个帐:
其一,网上说幻方不差钱,但他们背后其实是私募基金,私募基金啥意思,有投资人的,你梁文峰有情怀,人家投资人给你钱是炒股票的,不是给你情怀的,幻方几百亿人民币的资金盘子,是投资人的钱,不是梁文峰的钱,他们炒股一年赚大几十亿人民币(网上数据),是给投资人赚的钱,按照行规他们能分十几个亿,管理费 + 利润佣金,大概率过不了二十亿。然后还有各种税费要交,核心团队怎么说也要分分钱,以及人员和正常的量化系统的维护成本,这个钱当然不算少,比起很多国内上市公司利润还多,但即便如此,算来算算,怎么看他们也不像能拿出十几个亿美金搞事的样子,七扣八扣,一年能拿出来十个亿人民币都难,这是我的个人判断。
其二,人家优化算法,对内存的控制策略,摆明了是针对 H800 的内存局限做的,要有那么多 H100 搞这么复杂的内存优化干嘛,就算做优化也不会对内存占用卡的那么狠对吧。那么结合之前看到的一些数据和介绍,幻方有上万张,乃至几万张卡是真的,前期成本肯定不是几百万美金那么少,但是比起行业巨头来说,他们的资金其实也有限,能拿到的资源也有限,我觉得合理估算,几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的(硬件采购成本,员工成本,前期训练和迭代的试错成本等等),肯定不是个小数字,也不是普通创业公司能玩的起来的,但比起美国同行,比起行业巨头,肯定也是抠门了很多,总研发成本比美国同行低一个数量级也是合理的。
没有网传那么省钱,但确实还是挺省钱的,这是我的结论。这种成本优势主要得益于混合专家模型(MoE)架构的高效利用以及软件栈的深度优化,使得在同等算力下能实现更高的训练吞吐量。


