国内大模型公司面试经验总结与技术要点分析
2023 年三月前后,大模型在国内突然火了起来,笔者面了一些公司,有大厂也有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。因为有一段时间了(最早面的半年了),所以大部分细节记不清了,列表顺序大概齐按面试时间排的。
后边会大体总结下面试的经验感悟,以及我认为要注重的内容,一家之言仅供参考。
1. 智元机器人(Agibot)
稚晖君那个。当时面的很早,他们好像还在一边组建团队一边搞东西,一面就是稚晖君本人,问了一些简历的经历,然后问了 transformer 相关的比较常见的问题比如 MHA,复杂度,BERT/GPT 这种。然后后边就没有收到回复,应该是挂了。这家是我开始面试的第一家,所以印象还比较深刻。和大佬交流感觉也挺顺畅,很看好他家的以及具身智能这个方向。
2. 面壁科技/面壁智能
记得一共两面,技术上问了大模型训练,transformer 相关的内容和过往经历,第二面好像就聊 offer 了如果没有记错。团队很年轻,大部分清华背景。当时感觉是不是有点太年轻了虽然清华背景这样子。印象里他们有说 funding 还是很足的。PS:包是挺大的。
3. 光年之外
三月份猎头帮忙推荐的,简历拒。
4. 北京智源人工智能研究院
一共 3-4 面,面试官是不同 team 的人,有 evaluation,训练等团队。面试时总体感觉他们想招偏 evaluation 这边的人。面到后面记得有一次面试官鸽了约好的面试,然后后面说从新安排时间,但是猎头或者 HR 就没有再给后续消息了,应该是默拒了。
5. 360
当时猎头说要高 P,P8+。
6. Minimax
这家面试轮次挺多,具体记不清但是起码 4+ 轮。
前几轮都是考 leetcode 为主,问了很少很浅的大模型的内容,记得是其中一面是让手写 MHA。最后一轮和主管聊完之后被分配到了框架组的 offer,和猎头问了一下算法组是不是考虑,回答是不,就没再继续接触。
PS:他家的包还是挺大的(总包说肯定到得了 X+),在几家初创里都算大的,但是面试时公司的前景,业务技术方向感觉面试官没有沟通很多。主管面也是 20 分钟就匆匆结束了,没有交流很多信息。
7. 昆仑万维
面试好像问了之前训练大模型的内容,比如模型参数大小,训练一些细节之类的,印象里没有 leetcode。面试官记得很乐呵的一个人。当时拿到的包裹相对低一些,比其他公司。不过后边接触到猎头都说他家给的还是很可以的,所以不确定是不是自己记错了或者交流有误。
8. 云从科技
两轮面试被拒掉了,印象很深的是第二轮面试超级长,设定 1 个小时面试聊了 2 个多小时。面试官问了很多之前的经验,大模型训练的细节之类的,模型端,框架端,之前做的研究都聊到了。感觉聊的是挺开心的,不过后边就被拒了。
9. 阿里夸克
4 论面试,2 轮带 leetcode,然后浅浅问了相关经验,第三轮主要问了大模型的内容,比较标准的问题(transformer,训练,分布式,如何处理训练一些问题比如 loss spike 啥的)。第四轮是 cross 面,推荐组的一个大佬,感觉是象征性面试,因为之前做过搜广推问了相关问题,问了 probability 和脑筋急转弯,最后问一些 OS 的问题我不会。
几天后收到 offer,和 HR 接触时感觉不太礼貌,交流有些摩擦。
10. 衔远
3 面左右,问的也比较中规中矩。最后一面是和周伯文老师聊。他家最后给了框架的岗位,但是我相对想做模型相关。包裹挺大的。
11. 潞晨科技(Colossal-AI)
他家是做框架为主的,一面问了很多框架内容,各种模型切分方式,问的比较深,好像也问了 flash-attention 的内容,感觉答得还凑合。
后来我表达了想做算法端,他们算法那边确实也在招人不过 hc 不多,二面是算法组的人面的,问的应用端比较多,感觉可能不做基座?然后面挂了。他家在圈子里感觉框架端名声挺大的,记得公司内部之前有人发他家新闻来着。
12. 蚂蚁
徐鹏老师团队。一面记不清了,二面是徐鹏老师本人。聊了之前很多经历,大模型,搜广推,本科实习时的前后端。印象深一点是徐鹏老师表达了团队人希望模型研究和工程都要做,research 和 engineering 不分很细,这个和我的观点很像。接下来一轮 HR 面就发 offer 了,第一年算上签字 ** 这样子。
13. 腾讯
猎头说要 phd。
14. 小红书
猎头说要 phd。


