跳到主要内容
极客日志极客日志
首页博客AI提示词GitHub精选代理工具
搜索
|注册
博客列表
编程语言AI算法

DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注

综述由AI生成DeepSeek 近期因发布极具竞争力的高薪招聘信息引发关注,实习生月薪过万,本科生年薪百万。文章分析了其招聘策略,强调不看经验只看能力,团队年轻化,核心创新如 MLA 注意力和 GRPO 算法均由年轻人主导。DeepSeek 拥有约 5 万块 Hopper GPU,算力资源充足且开放。公司坚持做研究和探索而非垂类应用,体现了长期主义理念。MLA 机制显著降低显存占用,GRPO 算法优化了对齐过程。DeepSeek 的成功对 AI 行业人才战略、技术路线及降本增效具有示范意义,预示着年轻人才在前沿研究中的巨大潜力。

协议工匠发布于 2025/2/6更新于 2026/5/510 浏览
DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注

DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注

DeepSeek 近期因发布极具竞争力的高薪招聘信息登上热搜。从 BOSS 直聘等平台公布的岗位来看,其薪资水平在行业内处于领先地位。最高薪资达到 110k×14,本科应届生最高也有 90k×14。即便是实习生岗位,起薪也高达 500 元一天,按每月 20 天计算月入万元,最高日薪可达千元。

本科应届起步,不看经验只看能力

仔细阅读 DeepSeek 放出的招聘信息,会发现除了个别核心岗位需要硕士学历之外,大多都是本科起招。而且不限专业、不看出身,DeepSeek 的大门向各类人才敞开。即便是核心系统的研发工程师,90K×14 薪(年薪约 126 万),也依然是本科起步。

实际上,不仅是新招人遵循着这套标准,DeepSeek 的既有团队同样十分年轻。去年初,DeepSeek 推出 V2 版本的时候,虽然不及 R1 一般泼天的热度,但在业内也引起了不小关注。当时,Anthropic 联创 Jack Clark 就认为,DeepSeek v2 的背后一定有一群'高深莫测的奇才'。但很快,DeepSeek 创始人梁文锋就在一场访谈中否认了这一猜测。

并没有什么高深莫测的奇才,都是一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。

到了现在的 v3 和 R1 也是如此,应届生、在读生,特别是来自清北的应届生在其中非常活跃。他们中的一些人,2024 年一边在 DeepSeek 搞研究,另一边新鲜热乎的博士学位论文刚评上奖。为 DeepSeek 提出新型注意力 MLA(多头潜在注意力)、GRPO 强化学习对齐算法等关键创新的,也无一例外都是年轻人。甚至有的只是实习了一段时间,也做出了重要成果。

比如刚刚被顶会 ICLR 2025 接收的一篇论文,通过强化学习和蒙特卡洛树搜索研发了一个专门用于数学证明的模型,在相关数据集(miniF2F-valid)上取得了 60.2% 的通过率,而 GPT-4 只有 25%。这篇论文的第一作者,在 DeepSeek 的身份就是一名大四实习生,于去年上半年在 DeepSeek 实习,论文首次发表时间刚好是实习期结束,现在这名作者已经开始读博。

这或许也解释了 DeepSeek 愿意给实习生开出千元日薪的缘由。DeepSeek 大胆采用没有经验的年轻人的原因,梁文锋在访谈中也进行了解释:

如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。我们招人有条原则是,看能力,而不是看经验。

再回过头来看 DeepSeek 的招聘需求,不难发现表面上'三不限'的岗位,实际并不简单。不仅要对各类 AI 模型有十足的了解、掌握相关的编程语言,有些岗位甚至要求发表过顶刊或者在知名竞赛中获奖。如此一来,DeepSeek 团队虽然在年纪和资历上浅了一些,但无论能力还是成果都可圈可点。也正是这支年轻的团队,把 DeepSeek 抬到了 OpenAI 的同一张牌桌。

不设前置分工,计算资源人人可用

如果从岗位维度看,'全栈工程师'在 DeepSeek 的招聘列表中占据了可观的比重。关键是,岗位描述没有那么多的条条框框。从招聘介绍中管中窥豹,DeepSeek 内部的管理模式也主打一个 chill。梁文锋介绍,员工被 DeepSeek 录取之后就会开启'放养模式',交给他重要的事,但不设 KPI、不做干预,让他自己想办法、自己发挥。

当然,在这个过程中,人员和算力的需求,DeepSeek 都会给予满足:

我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

前面提到的 MLA 注意力机制,就是一个很好的例子,它出现的契机,就是一个偶然。梁文锋介绍,在总结出注意力架构的一些主流变迁规律后,这位年轻人突发奇想去设计一个替代方案。面对这种'偶然',DeepSeek 给予了全力支持,为此专门组建了一个团队,用数个月的时间把这个想法变成了现实。

再继续深入下去,DeepSeek 的内核也显得年轻而极具理想主义。梁文锋表示,DeepSeek 的目标很明确,就是不做垂类和应用,而是做研究、做探索。在许多大模型创业者转向应用的大趋势下,这样的选择极有可能是艰辛的。但在 DeepSeek 的视角中,搞大模型不能总是依靠拿来主义来赚快钱,而是要推动真正的技术创新。这又从另一个角度解释了 DeepSeek 团队年轻化的一大原因——在经济效益不做优先考量的情况下,创新需要信念来作为支撑,而年轻人,无疑是最具信心、最朝气蓬勃的一个群体。

拥有上万块 GPU,天价招人不稀奇

有了理想,当然要在此之上进行投入,实际上,DeepSeek 无论在人才还是在算力资源上,都可谓非常不吝成本。前面我们也提到,DeepSeek 打出了计算资源人人可用这块招牌,招聘中也明确提到了相关算力支持。

那么,DeepSeek 实际上有多少算力资源呢?通过挖掘知名半导体研究机构 Semianalysis 发布的一份解析报告,我们能够进一步获悉:据报告推测,DeepSeek 拥有约 5 万块 Hopper GPU,其 GPU 投资超过了 5 亿美元。(Hopper GPU 是英伟达专为高性能计算和 AI 研发的下一代数据中心 GPU 架构,其名字是为了纪念已故计算机科学家 Grace Hopper)

不过报告也提醒,5 万个 Hopper GPU≠5 万个 H100。具体来说,报告推测 DeepSeek 拥有约 1 万个 H800 和 1 万个 H100,并且还订购了更多的 H20。这些 GPU 将在幻方量化(DeepSeek 背后公司)和 DeepSeek 之间共享。

与此同时,报告还对之前盛传的'DeepSeek V3 的训练成本仅为 600 万美元'作了解释。这个数字其实是片面的。它只是预训练过程中 GPU 的花费,仅为模型总成本的一部分。研发费用以及硬件本身的总体拥有成本等重要部分并未包含在内。具体而言,报告分析认为 DeepSeek 在硬件上的支出远超过 5 亿美元,而且为了开发新架构,团队需要花费大量资金和算力。

比如在 DeepSeek 降本的关键——MLA 机制,前期就有大量人力及 GPU 计算时间被投进去,耗时长达数月。当然这种投入也获得了回报,在后续研发过程中,每次查询所需的 KV 缓存减少了约 93.3%。所以,即使加上硬件和前面提到的人力成本,DeepSeek 在性价比这事儿上仍有相当大想象空间。

这不,春节假期还没结束,最近几天腾讯云、阿里云、百度智能云等各大云计算都在抢着上架 DeepSeek 模型。如此巨大关注下,能够开出天价招人也就不奇怪了。

技术深度解析:MLA 与 GRPO 的创新意义

DeepSeek 的成功不仅仅在于高薪,更在于其底层技术的突破。MLA(Multi-head Latent Attention)机制是其核心创新之一。传统的 Transformer 架构中,KV Cache(键值缓存)随着序列长度增加而线性增长,导致推理显存占用巨大。MLA 通过压缩 KV 状态,将注意力头映射到低维潜在空间,显著降低了显存需求。这一改进使得在相同硬件条件下,DeepSeek 能够处理更长的上下文窗口,同时保持较低的推理延迟。这对于长文本生成、代码理解等应用场景至关重要。

此外,GRPO(Group Relative Policy Optimization)强化学习对齐算法也是其亮点。不同于传统的 PPO(Proximal Policy Optimization),GRPO 不需要价值网络(Critic Model),而是通过组内相对优势估计来更新策略。这种方法简化了训练流程,减少了对齐过程中的超参数敏感性,使得模型在数学推理和逻辑任务上表现更加稳定。结合蒙特卡洛树搜索(MCTS),DeepSeek 在数学证明任务上实现了超越 GPT-4 的效果,证明了其在复杂推理领域的潜力。

行业影响与未来展望

DeepSeek 的招聘策略和技术路线对 AI 行业产生了深远影响。首先,它打破了'唯学历论'和'唯经验论'的传统招聘壁垒,证明了年轻人在前沿 AI 研究中具备巨大的爆发力。这可能会促使更多科技公司调整人才战略,加大对高校应届生的培养和投入。

其次,DeepSeek 坚持做基础研究而非单纯的应用层变现,为行业树立了长期主义的标杆。在资本寒冬下,许多企业倾向于快速落地应用以获取现金流,而 DeepSeek 选择深耕底层架构和算法优化,这种策略虽然风险较高,但一旦成功,将构建起极高的技术护城河。

最后,DeepSeek 展示的算力调度能力和成本控制能力,为大模型行业的降本增效提供了参考范式。通过 MLA 等机制降低推理成本,使得大模型服务更加普惠。随着各大云厂商纷纷接入 DeepSeek 模型,预计未来会有更多基于 DeepSeek 生态的应用涌现,推动整个 AI 产业链的繁荣发展。

综上所述,DeepSeek 的高薪招聘不仅是企业自身发展的需求,更是 AI 行业人才争夺战升级的信号。对于从业者而言,提升基础能力、保持创新热情,比单纯积累年限更为重要。而对于投资者和行业观察者来说,DeepSeek 的模式值得深入研究,其背后的技术逻辑和管理哲学可能预示着下一代人工智能的发展路径。

目录

  1. DeepSeek 高薪招聘 AI 人才,实习生月薪过万引发行业关注
  2. 本科应届起步,不看经验只看能力
  3. 不设前置分工,计算资源人人可用
  4. 拥有上万块 GPU,天价招人不稀奇
  5. 技术深度解析:MLA 与 GRPO 的创新意义
  6. 行业影响与未来展望
  • 💰 8折买阿里云服务器限时8折了解详情
  • GPT-5.5 超高智商模型1元抵1刀ChatGPT中转购买
  • 代充Chatgpt Plus/pro 帐号了解详情
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 基于 Dify 与 Jina AI 构建新闻摘要工具指南
  • 前端地理空间分析的轻量级解决方案:Turf.js 实战解析
  • AI 领域动态:NVIDIA GR00T N2 发布与 Claude 上下文突破
  • 主流 AI 编程工具对比:TRAE、Qoder、Cursor 与 Copilot 选型指南
  • 前端 Cookie 无法存储获取及跨域携带问题的解决方案
  • 动态规划专题:回文串问题与区间 DP
  • LRU 与 LFU 缓存算法详解:原理、实现与面试要点
  • 工业机器人工具坐标系与多传感器标定实战指南
  • 2026 牛客寒假算法基础集训营 1 题解
  • WebP格式处理一站式解决方案:让Photoshop完美支持现代图像格式
  • Meta Llama 4 Scout MoE 模型技术架构与性能解析
  • 数字频率计 FPGA 实现中的测频方法比较
  • 大模型开发框架 LangChain 技术实战入门
  • 2025 年 12 款 AI 写小说工具实测与优劣对比
  • 机器人 3D 位姿与 5 种旋转表示法详解
  • 基于 Nexent 知识库与 MCP 生态打造智能烹饪顾问实战
  • Linux 进程地址空间与虚拟内存底层原理
  • Z-Image Turbo 本地部署与使用指南
  • Ubuntu 18 + ROS Melodic 配置 XTDrone/Gazebo 无人机仿真及 Mid360 模型集成
  • STL 文件格式解析及常用查看软件推荐

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online