DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注
DeepSeek 近期因发布极具竞争力的高薪招聘信息登上热搜。从 BOSS 直聘等平台公布的岗位来看,其薪资水平在行业内处于领先地位。最高薪资达到 110k×14,本科应届生最高也有 90k×14。即便是实习生岗位,起薪也高达 500 元一天,按每月 20 天计算月入万元,最高日薪可达千元。
本科应届起步,不看经验只看能力
仔细阅读 DeepSeek 放出的招聘信息,会发现除了个别核心岗位需要硕士学历之外,大多都是本科起招。而且不限专业、不看出身,DeepSeek 的大门向各类人才敞开。即便是核心系统的研发工程师,90K×14 薪(年薪约 126 万),也依然是本科起步。
实际上,不仅是新招人遵循着这套标准,DeepSeek 的既有团队同样十分年轻。去年初,DeepSeek 推出 V2 版本的时候,虽然不及 R1 一般泼天的热度,但在业内也引起了不小关注。当时,Anthropic 联创 Jack Clark 就认为,DeepSeek v2 的背后一定有一群'高深莫测的奇才'。但很快,DeepSeek 创始人梁文锋就在一场访谈中否认了这一猜测。
并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
到了现在的 v3 和 R1 也是如此,应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024 年一边在 DeepSeek 搞研究,另一边新鲜热乎的博士学位论文刚评上奖。为 DeepSeek 提出新型注意力 MLA(多头潜在注意力)、GRPO 强化学习对齐算法等关键创新的,也无一例外都是年轻人。甚至有的只是实习了一段时间,也做出了重要成果。
比如刚刚被顶会 ICLR 2025 接收的一篇论文,通过强化学习和蒙特卡洛树搜索研发了一个专门用于数学证明的模型,在相关数据集(miniF2F-valid)上取得了 60.2% 的通过率,而 GPT-4 只有 25%。这篇论文的第一作者,在 DeepSeek 的身份就是一名大四实习生,于去年上半年在 DeepSeek 实习,论文首次发表时间刚好是实习期结束,现在这名作者已经开始读博。
这或许也解释了 DeepSeek 愿意给实习生开出千元日薪的缘由。DeepSeek 大胆采用没有经验的年轻人的原因,梁文锋在访谈中也进行了解释:
如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。我们招人有条原则是,看能力,而不是看经验。
再回过头来看 DeepSeek 的招聘需求,不难发现表面上'三不限'的岗位,实际并不简单。不仅要对各类 AI 模型有十足的了解、掌握相关的编程语言,有些岗位甚至要求发表过顶刊或者在知名竞赛中获奖。如此一来,DeepSeek 团队虽然在年纪和资历上浅了一些,但无论能力还是成果都可圈可点。也正是这支年轻的团队,把 DeepSeek 抬到了 OpenAI 的同一张牌桌。
不设前置分工,计算资源人人可用
如果从岗位维度看,'全栈工程师'在 DeepSeek 的招聘列表中占据了可观的比重。关键是,岗位描述没有那么多的条条框框。从招聘介绍中管中窥豹,DeepSeek 内部的管理模式也主打一个 chill。梁文锋介绍,员工被 DeepSeek 录取之后就会开启'放养模式',交给他重要的事,但不设 KPI、不做干预,让他自己想办法、自己发挥。
当然,在这个过程中,人员和算力的需求,DeepSeek 都会给予满足:
我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
前面提到的 MLA 注意力机制,就是一个很好的例子,它出现的契机,就是一个偶然。梁文锋介绍,在总结出注意力架构的一些主流变迁规律后,这位年轻人突发奇想去设计一个替代方案。面对这种'偶然',DeepSeek 给予了全力支持,为此专门组建了一个团队,用数个月的时间把这个想法变成了现实。
再继续深入下去,DeepSeek 的内核也显得年轻而极具理想主义。梁文锋表示,DeepSeek 的目标很明确,就是不做垂类和应用,而是做研究、做探索。在许多大模型创业者转向应用的大趋势下,这样的选择极有可能是艰辛的。但在 DeepSeek 的视角中,搞大模型不能总是依靠拿来主义来赚快钱,而是要推动真正的技术创新。这又从另一个角度解释了 DeepSeek 团队年轻化的一大原因——在经济效益不做优先考量的情况下,创新需要信念来作为支撑,而年轻人,无疑是最具信心、最朝气蓬勃的一个群体。
拥有上万块 GPU,天价招人不稀奇
有了理想,当然要在此之上进行投入,实际上,DeepSeek 无论在人才还是在算力资源上,都可谓非常不吝成本。前面我们也提到,DeepSeek 打出了计算资源人人可用这块招牌,招聘中也明确提到了相关算力支持。
那么,DeepSeek 实际上有多少算力资源呢?通过挖掘知名半导体研究机构 Semianalysis 发布的一份解析报告,我们能够进一步获悉:据报告推测,DeepSeek 拥有约 5 万块 Hopper GPU,其 GPU 投资超过了 5 亿美元。(Hopper GPU 是英伟达专为高性能计算和 AI 研发的下一代数据中心 GPU 架构,其名字是为了纪念已故计算机科学家 Grace Hopper)
不过报告也提醒,5 万个 Hopper GPU≠5 万个 H100。具体来说,报告推测 DeepSeek 拥有约 1 万个 H800 和 1 万个 H100,并且还订购了更多的 H20。这些 GPU 将在幻方量化(DeepSeek 背后公司)和 DeepSeek 之间共享。


