DeepSeek 常见误读与行业影响分析

综述由AI生成对 DeepSeek 引发的舆论热潮，剖析了五大核心误读。首先澄清其能力并未全面超越头部竞品，其次反驳无脑贬低蒸馏论调，指出成本优势源于工程优化而非单纯低价。接着区分 App 与开源生态的合规差异，最后强调其对行业迭代效率的加速作用及潜在的黑灰产风险。文章旨在提供客观理性的认知视角，避免盲目跟风，并展望了开源模式对全球 AI 格局的影响。

zhang发布于 2025/2/6更新于 2026/6/221 浏览

DeepSeek 常见误读与行业影响分析

最近 DeepSeek 成为全球最热门的话题，甚至没有之一。无论是北美、欧洲，各大 IT 巨头、投资机构、政府官员，乃至脱口秀演员，都在不断提及这个话题。国内自媒体也享受了一批流量盛宴。但在这些信息的不断传播和讨论中，鉴于流量的偏好，或者说公众的偏好，在很多自媒体和非专业人士的报道和解读中，一些关键信息存在较多的误导。

我觉得这个话题甚至可以作为一个认知能力的评判标准。我所理解的合理认知是，所谓掐头去尾。所谓头和尾是什么？过度神话，以及无脑贬低。

1. 过度神话

我旧文其实也说到了，它非常棒，对行业发展的促进价值是值得肯定的，但谈及颠覆，还为时尚早。一些专业测评来看，在一些关键问题的解决上，并没有超越 ChatGPT。比如我看到有人测试，模拟典型的小球在封闭空间的弹跳代码，DeepSeek 编写出来的程序表现，和 ChatGPT o3-mini 相比，从物理学的遵循度角度来看，还是有差距。

当然，我没有亲测，单一案例也许不能证明太多，但至少目前看到的多个测评来说，最多只能说各有千秋，DeepSeek 还不能说实现了反超。AI 大模型的能力评估是一个多维度的过程，包括逻辑推理、代码生成、多模态理解等，单一维度的优势不足以定义整体超越。许多评测显示，在复杂数学推理和长文本处理上，头部闭源模型依然保持领先优势。因此，对于技术团队而言，选择模型应基于具体业务场景的实测结果，而非盲目追求最新热点。

2. 无脑贬低

不要过度神话它，但无脑贬低也是很扯淡的事情。微软说 DeepSeek 蒸馏了 ChatGPT 的结果，所以一些人也借题发挥，把 DeepSeek 贬低的一钱不值。这个事情该怎么看？那么一些证据也是有的，比如你问 DeepSeek 自己是谁，它会说自己是 ChatGPT，从某种意义来说，这个很有可能是他们采纳了一些 ChatGPT 的一些语料信息训练，但如果你说他们的成就是基于蒸馏 ChatGPT 的，我是不信的。

根据我的测试，DeepSeek 答案的脑洞很大，很多问题的解答会比 ChatGPT 发散，而我所理解的蒸馏，通常是为了提升效率，会带来更收敛的结果。我的个人判断是，DeepSeek 的训练中，可能部分利用了一些蒸馏的语料信息，或者做了少许的蒸馏验证，但这个对它整个模型的质量和价值影响应该很低。而且既然人家都开源了，复现和测试也很容易，全球做 AI 大模型的专家已经人手一份在研究了，就此而言，在这个环节上翻车的概率极低。

但我也认同一个事实，基于领先模型蒸馏验证优化自己的模型，是很多大模型团队的一个常规操作，但毕竟需要联网 API，能获得的信息非常有限，不太可能是决定性的影响因素，相对于海量的互联网数据信息来说，通过 API 调用领先大模型能获得的语料杯水车薪，合理的猜测是更多用于对策略的验证分析，而不是直接用作大规模训练。所有大模型都需要从互联网获得语料训练，而领先的大模型也在不断为互联网贡献语料，从这个角度来说，每个领先的大模型都摆脱不了被采集，被蒸馏的宿命，但其实也没必要把这个当作是决定成败的关键。最终大家都是你中有我，我中有你，迭代前进。

3. 成本优势

关于 DeepSeek 成本优势这块，误读是最多的，也是最容易去写段子，打鸡血的，所谓中国创业公司不到 600 万美元干翻所有巨头，各种自媒体喜欢这样讲，普通老百姓也分辨不了。那么实际上，这个数据的来源是 DeepSeek 论文里提到的数据，而人家论文提到的数据是有前提的，就是最终版本的训练成本。人家说的这个前提很清楚，没有包括研发成本，前期硬件购置成本，以及前期测试和迭代的训练成本，只是最终版本的训练成本，或者说，你拿着人家开源代码，你有对方完整语料，去做完整复现的算力成本。

我举个例子你们就明白了，这就好比告诉你配方和生产流程，你去做仿制药的成本（还不包括人工），但是原研药的成本是仿制药的多少倍，稍微懂点行的都知道吧。很多硅谷大佬出来说这个事，国内的人会认为这些大佬在贬低 DeepSeek，其实很多真不是，他们也要给自己团队找点场子对吧，自己投入几十亿美金，被中美两边的老百姓们嘲笑，要对公众澄清一点，DeepSeek 真实成本绝对不是几百万美金，我们这些巨头投入的几十亿美金也不是因为我们人傻对吧，所以很多大佬其实只是澄清事实，为自己的团队正名而已。

但硅谷某些人的言论我也是不太认同的，说 DeepSeek 有五万张 H100，投入十几亿到二十亿美金，这个我还真不信，我觉得这就是另一个极端了。我给读者们算个帐：

其一，网上说幻方不差钱，但他们背后其实是私募基金，私募基金啥意思，有投资人的，你梁文峰有情怀，人家投资人给你钱是炒股票的，不是给你情怀的，幻方几百亿人民币的资金盘子，是投资人的钱，不是梁文峰的钱，他们炒股一年赚大几十亿人民币（网上数据），是给投资人赚的钱，按照行规他们能分十几个亿，管理费 + 利润佣金，大概率过不了二十亿。然后还有各种税费要交，核心团队怎么说也要分分钱，以及人员和正常的量化系统的维护成本，这个钱当然不算少，比起很多国内上市公司利润还多，但即便如此，算来算算，怎么看他们也不像能拿出十几个亿美金搞事的样子，七扣八扣，一年能拿出来十个亿人民币都难，这是我的个人判断。

其二，人家优化算法，对内存的控制策略，摆明了是针对 H800 的内存局限做的，要有那么多 H100 搞这么复杂的内存优化干嘛，就算做优化也不会对内存占用卡的那么狠对吧。那么结合之前看到的一些数据和介绍，幻方有上万张，乃至几万张卡是真的，前期成本肯定不是几百万美金那么少，但是比起行业巨头来说，他们的资金其实也有限，能拿到的资源也有限，我觉得合理估算，几年来累计投入十几个亿甚至二十多亿人民币我认为是有可能的（硬件采购成本，员工成本，前期训练和迭代的试错成本等等），肯定不是个小数字，也不是普通创业公司能玩的起来的，但比起美国同行，比起行业巨头，肯定也是抠门了很多，总研发成本比美国同行低一个数量级也是合理的。

没有网传那么省钱，但确实还是挺省钱的，这是我的结论。这种成本优势主要得益于混合专家模型（MoE）架构的高效利用以及软件栈的深度优化，使得在同等算力下能实现更高的训练吞吐量。

DeepSeek 常见误读与行业影响分析

DeepSeek 常见误读与行业影响分析

1. 过度神话

2. 无脑贬低

3. 成本优势

更多推荐文章

相关免费在线工具

4. 合规风险和生态诉求

5. 行业影响

总结

更多推荐文章

相关免费在线工具

DeepSeek 常见误读与行业影响分析

DeepSeek 常见误读与行业影响分析

1. 过度神话

2. 无脑贬低

3. 成本优势

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 合规风险和生态诉求

5. 行业影响

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具