DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注
DeepSeek 近期因发布极具竞争力的高薪招聘信息登上热搜。从 BOSS 直聘等平台公布的岗位来看,其薪资水平在行业内处于领先地位。最高薪资达到 110k×14,本科应届生最高也有 90k×14。即便是实习生岗位,起薪也高达 500 元一天,按每月 20 天计算月入万元,最高日薪可达千元。
本科应届起步,不看经验只看能力
仔细阅读 DeepSeek 放出的招聘信息,会发现除了个别核心岗位需要硕士学历之外,大多都是本科起招。而且不限专业、不看出身,DeepSeek 的大门向各类人才敞开。即便是核心系统的研发工程师,90K×14 薪(年薪约 126 万),也依然是本科起步。
实际上,不仅是新招人遵循着这套标准,DeepSeek 的既有团队同样十分年轻。去年初,DeepSeek 推出 V2 版本的时候,虽然不及 R1 一般泼天的热度,但在业内也引起了不小关注。当时,Anthropic 联创 Jack Clark 就认为,DeepSeek v2 的背后一定有一群'高深莫测的奇才'。但很快,DeepSeek 创始人梁文锋就在一场访谈中否认了这一猜测。
并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
到了现在的 v3 和 R1 也是如此,应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024 年一边在 DeepSeek 搞研究,另一边新鲜热乎的博士学位论文刚评上奖。为 DeepSeek 提出新型注意力 MLA(多头潜在注意力)、GRPO 强化学习对齐算法等关键创新的,也无一例外都是年轻人。甚至有的只是实习了一段时间,也做出了重要成果。
比如刚刚被顶会 ICLR 2025 接收的一篇论文,通过强化学习和蒙特卡洛树搜索研发了一个专门用于数学证明的模型,在相关数据集(miniF2F-valid)上取得了 60.2% 的通过率,而 GPT-4 只有 25%。这篇论文的第一作者,在 DeepSeek 的身份就是一名大四实习生,于去年上半年在 DeepSeek 实习,论文首次发表时间刚好是实习期结束,现在这名作者已经开始读博。
这或许也解释了 DeepSeek 愿意给实习生开出千元日薪的缘由。DeepSeek 大胆采用没有经验的年轻人的原因,梁文锋在访谈中也进行了解释:
如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。我们招人有条原则是,看能力,而不是看经验。
再回过头来看 DeepSeek 的招聘需求,不难发现表面上'三不限'的岗位,实际并不简单。不仅要对各类 AI 模型有十足的了解、掌握相关的编程语言,有些岗位甚至要求发表过顶刊或者在知名竞赛中获奖。如此一来,DeepSeek 团队虽然在年纪和资历上浅了一些,但无论能力还是成果都可圈可点。也正是这支年轻的团队,把 DeepSeek 抬到了 OpenAI 的同一张牌桌。
不设前置分工,计算资源人人可用
如果从岗位维度看,'全栈工程师'在 DeepSeek 的招聘列表中占据了可观的比重。关键是,岗位描述没有那么多的条条框框。从招聘介绍中管中窥豹,DeepSeek 内部的管理模式也主打一个 chill。梁文锋介绍,员工被 DeepSeek 录取之后就会开启'放养模式',交给他重要的事,但不设 KPI、不做干预,让他自己想办法、自己发挥。
当然,在这个过程中,人员和算力的需求,DeepSeek 都会给予满足:
我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
前面提到的 MLA 注意力机制,就是一个很好的例子,它出现的契机,就是一个偶然。梁文锋介绍,在总结出注意力架构的一些主流变迁规律后,这位年轻人突发奇想去设计一个替代方案。面对这种'偶然',DeepSeek 给予了全力支持,为此专门组建了一个团队,用数个月的时间把这个想法变成了现实。
再继续深入下去,DeepSeek 的内核也显得年轻而极具理想主义。梁文锋表示,DeepSeek 的目标很明确,就是不做垂类和应用,而是做研究、做探索。在许多大模型创业者转向应用的大趋势下,这样的选择极有可能是艰辛的。但在 DeepSeek 的视角中,搞大模型不能总是依靠拿来主义来赚快钱,而是要推动真正的技术创新。这又从另一个角度解释了 DeepSeek 团队年轻化的一大原因——在经济效益不做优先考量的情况下,创新需要信念来作为支撑,而年轻人,无疑是最具信心、最朝气蓬勃的一个群体。
拥有上万块 GPU,天价招人不稀奇
有了理想,当然要在此之上进行投入,实际上,DeepSeek 无论在人才还是在算力资源上,都可谓非常不吝成本。前面我们也提到,DeepSeek 打出了计算资源人人可用这块招牌,招聘中也明确提到了相关算力支持。
那么,DeepSeek 实际上有多少算力资源呢?通过挖掘知名半导体研究机构 Semianalysis 发布的一份解析报告,我们能够进一步获悉:据报告推测,DeepSeek 拥有约 5 万块 Hopper GPU,其 GPU 投资超过了 5 亿美元。(Hopper GPU 是英伟达专为高性能计算和 AI 研发的下一代数据中心 GPU 架构,其名字是为了纪念已故计算机科学家 Grace Hopper)
不过报告也提醒,5 万个 Hopper GPU≠5 万个 H100。具体来说,报告推测 DeepSeek 拥有约 1 万个 H800 和 1 万个 H100,并且还订购了更多的 H20。这些 GPU 将在幻方量化(DeepSeek 背后公司)和 DeepSeek 之间共享。
与此同时,报告还对之前盛传的'DeepSeek V3 的训练成本仅为 600 万美元'作了解释。这个数字其实是片面的。它只是预训练过程中 GPU 的花费,仅为模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。具体而言,报告分析认为 DeepSeek 在硬件上的支出远超过 5 亿美元,而且为了开发新架构,团队需要花费大量资金和算力。
比如在 DeepSeek 降本的关键——MLA 机制,前期就有大量人力及 GPU 计算时间被投进去,耗时长达数月。当然这种投入也获得了回报,在后续研发过程中,每次查询所需的 KV 缓存减少了约 93.3%。所以,即使加上硬件和前面提到的人力成本,DeepSeek 在性价比这事儿上仍有相当大想象空间。
这不,春节假期还没结束,最近几天腾讯云、阿里云、百度智能云等各大云计算都在抢着上架 DeepSeek 模型。如此巨大关注下,能够开出天价招人也就不奇怪了。
技术深度解析:MLA 与 GRPO 的创新意义
DeepSeek 的成功不仅仅在于高薪,更在于其底层技术的突破。MLA(Multi-head Latent Attention)机制是其核心创新之一。传统的 Transformer 架构中,KV Cache(键值缓存)随着序列长度增加而线性增长,导致推理显存占用巨大。MLA 通过压缩 KV 状态,将注意力头映射到低维潜在空间,显著降低了显存需求。这一改进使得在相同硬件条件下,DeepSeek 能够处理更长的上下文窗口,同时保持较低的推理延迟。这对于长文本生成、代码理解等应用场景至关重要。
此外,GRPO(Group Relative Policy Optimization)强化学习对齐算法也是其亮点。不同于传统的 PPO(Proximal Policy Optimization),GRPO 不需要价值网络(Critic Model),而是通过组内相对优势估计来更新策略。这种方法简化了训练流程,减少了对齐过程中的超参数敏感性,使得模型在数学推理和逻辑任务上表现更加稳定。结合蒙特卡洛树搜索(MCTS),DeepSeek 在数学证明任务上实现了超越 GPT-4 的效果,证明了其在复杂推理领域的潜力。
行业影响与未来展望
DeepSeek 的招聘策略和技术路线对 AI 行业产生了深远影响。首先,它打破了'唯学历论'和'唯经验论'的传统招聘壁垒,证明了年轻人在前沿 AI 研究中具备巨大的爆发力。这可能会促使更多科技公司调整人才战略,加大对高校应届生的培养和投入。
其次,DeepSeek 坚持做基础研究而非单纯的应用层变现,为行业树立了长期主义的标杆。在资本寒冬下,许多企业倾向于快速落地应用以获取现金流,而 DeepSeek 选择深耕底层架构和算法优化,这种策略虽然风险较高,但一旦成功,将构建起极高的技术护城河。
最后,DeepSeek 展示的算力调度能力和成本控制能力,为大模型行业的降本增效提供了参考范式。通过 MLA 等机制降低推理成本,使得大模型服务更加普惠。随着各大云厂商纷纷接入 DeepSeek 模型,预计未来会有更多基于 DeepSeek 生态的应用涌现,推动整个 AI 产业链的繁荣发展。
综上所述,DeepSeek 的高薪招聘不仅是企业自身发展的需求,更是 AI 行业人才争夺战升级的信号。对于从业者而言,提升基础能力、保持创新热情,比单纯积累年限更为重要。而对于投资者和行业观察者来说,DeepSeek 的模式值得深入研究,其背后的技术逻辑和管理哲学可能预示着下一代人工智能的发展路径。


