国内大模型公司面试经验总结与技术要点分析
2023 年三月前后,大模型在国内突然火了起来。楼主面了一些公司,有大厂也有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。因为有一段时间了(最早面的半年了),所以大部分细节记不清,列表顺序大概按面试时间排的。后边会大体总结下面试的经验感悟,以及我认为要注重的内容,一家之言仅供参考。
2023 年国内多家大模型公司的面试经历,涵盖大厂与初创企业。内容涉及面试流程、技术考察重点(如 Transformer、分布式训练、CUDA)、薪资范围及岗位方向建议。总结了高频考点与准备策略,为求职者提供行业参考与避坑指南。

2023 年三月前后,大模型在国内突然火了起来。楼主面了一些公司,有大厂也有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。因为有一段时间了(最早面的半年了),所以大部分细节记不清,列表顺序大概按面试时间排的。后边会大体总结下面试的经验感悟,以及我认为要注重的内容,一家之言仅供参考。
智元机器人 (Agibot) [拒]
面壁智能 [Offer]
[某公司] [简历拒]
北京智源人工智能研究院 [未收到回复]
360 [简历拒]
Minimax [口头 Offer]
[某公司] [Offer]
[某公司] [拒]
[某公司] [Offer]
衔远科技 [Offer]
潞晨科技 (Colossal-AI) [拒]
蚂蚁集团 [Offer]
腾讯 [简历拒]
小红书 [简历拒]
商汤科技 [没消息了,被拒]
[某公司] [拒]
[某公司] [Offer]
[某公司] [拒]
[某公司] [拒]
[某公司] [Offer]
零一万物 [拒]
月之暗面 [拒]
阿里达摩院(新达摩) [Offer]
[某公司] [拒]
这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和 RL 的内容有一定了解(面试能凑合),对于后端的知识比如 ML Compiler, Kernel, CUDA 相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:
针对/框架岗位为主,大体按重要性排序,以下是详细的技术准备建议:
为了更全面地应对面试,以下是对上述考点的补充技术背景说明:
Transformer 是目前大模型的基石。其核心在于 Self-Attention 机制,允许模型在处理序列时直接建立任意两个位置之间的联系,解决了 RNN 无法并行计算的问题。在面试中,除了手写代码,还需理解 Q, K, V 矩阵的计算过程,以及 Softmax 函数的作用。
在大模型训练中,显存往往是瓶颈。常见的优化技术包括:
注:以上经验基于个人面试经历整理,具体情况因公司和岗位而异,仅供参考。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online