跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

国内大模型公司面试经验与考点总结 | 极客日志

PythonAI算法

国内大模型公司面试经验与考点总结

综述由AI生成汇总了国内多家大模型公司的面试经历与结果，涵盖智元机器人、面壁科技、Minimax、阿里、百度等知名企业。文章详细记录了各公司的考察重点，包括 Transformer 架构、MHA 原理、分布式训练、LeetCode 算法题及工程落地能力。同时总结了行业现状，指出大模型岗位对模型、框架及底层知识的综合要求，并提供了针对基座算法与框架岗位的高频考点解析，如 KV-Cache 优化、Flash-Attention 原理、训练稳定性处理及评估体系构建，为求职者提供系统的复习指南与职业建议。

星云发布于 2025/2/7更新于 2026/6/225 浏览

国内大模型公司面试经验与考点总结

国内大模型公司面试经验与感受

本文总结了近期在国内多家知名人工智能及大模型公司的面试经历，涵盖技术面、业务面及 HR 面。内容包含各公司的考察重点、技术细节以及个人对行业现状的感悟，旨在为求职者提供参考。

一、面试经历回顾

1. 智元机器人（Agibot）

结果：未通过
过程：一面由创始人稚晖君主面。主要询问简历经历及 Transformer 相关基础问题，如 MHA（Multi-Head Attention）原理、时间复杂度分析、BERT/GPT 架构差异等。
评价：团队处于早期组建阶段，具身智能方向前景广阔，与大佬交流顺畅。

2. 面壁科技/面壁智能

结果：Offer
过程：共两面。技术面涉及大模型训练流程、Transformer 细节及过往项目；二面主要沟通 Offer 细节。
评价：团队年轻化，清华背景较多，资金充足，薪资竞争力强。

3. 光年之外

结果：简历筛选未通过

4. 北京智源人工智能研究院

结果：默拒
过程：3-4 轮面试，面试官来自 Evaluation、训练等不同团队。后期因面试官爽约且无后续反馈，推测为未匹配到 Evaluation 方向需求。

5. 360

结果：简历筛选未通过
备注：猎头推荐岗位要求较高（P8+）。

6. Minimax

结果：口头 Offer（框架组）
过程：面试轮次多（4+ 轮）。前几轮侧重 LeetCode 算法题，大模型内容较浅，包括手写 MHA。最后一轮主管面后分配至框架组。
评价：薪资总包在初创公司中较高，但面试中对业务前景及技术方向沟通较少。

7. 昆仑万维

结果：Offer
过程：考察大模型训练细节，如参数量级、训练技巧等，无明显 LeetCode 环节。
评价：初期感知薪资略低，但据后续信息反馈整体待遇尚可。

8. 云从科技

结果：拒绝
过程：两轮面试。第二轮时长超 2 小时，深入探讨模型端、框架端经验及研究细节。
评价：沟通氛围良好，但最终未通过。

9. 阿里夸克

结果：Offer
过程：4 轮面试。含 2 轮 LeetCode，常规大模型问题（Transformer、分布式训练、Loss Spike 处理）。第四轮交叉面试涉及搜广推概率论及 OS 知识。
评价：HR 沟通体验一般，存在摩擦。

10. 衔远

结果：Offer
过程：3 轮左右，中规中矩。终面与周伯文老师交流。
：提供框架岗位，若意向模型岗需权衡。薪资较高。

评价

11. 潞晨科技（Colossal-AI）

结果：拒绝
过程：一面侧重框架底层（模型切分、Flash-Attention），二面侧重应用端。表达想做算法基座后，发现 HC 有限且偏应用。
评价：框架领域口碑较好，但岗位匹配度需注意。

12. 蚂蚁集团

结果：Offer
过程：徐鹏老师团队。二面由徐鹏老师主面，强调 Research 与 Engineering 不分家，需兼顾模型研究与工程落地。
评价：价值观契合，签字费及首年总包有竞争力。

13. 腾讯

结果：简历筛选未通过
备注：猎头反馈要求 PhD 学历。

14. 小红书

结果：简历筛选未通过
备注：猎头反馈要求 PhD 学历。

15. 商汤科技

结果：拒绝
过程：一面 LeetCode+ 手写 MHA，表现尚可。二面遗忘具体细节，感觉发挥不佳。

16. 百川智能

结果：拒绝
过程：一面通过，二面因迟到被取消，HR 反馈称需要 3 年以上经验。

17. 百度文心

结果：Offer
过程：多轮面试。数据组转模型组。考察 Transformer、大模型训练细节，分组细致（模型、框架、数据独立）。
评价：流程规范，底薪结构清晰。

18. 科大讯飞

结果：拒绝
原因：HR 沟通地点偏好问题（合肥）。

19. IDEA 研究院

结果：拒绝
过程：一面即被拒。

20. 好未来

结果：Offer
过程：一面简单 LeetCode 未答出，模型轮表现尚可。项目涉及数学 GPT 模型。

21. 零一万物

结果：拒绝
过程：一面推荐系统问题，二面复杂 LeetCode 未解出。未进入核心大模型面试环节。

22. 月之暗面（Moonshot）

结果：拒绝
过程：面试深度与广度极高。涉及 Transformer 架构、分布式训练通信（Ring-Reduce）、CUDA 编程及高难度 LeetCode。
评价：团队背景顶尖，技术考察专业，可惜未能通过。

23. 阿里达摩院（新达摩）

结果：Offer
过程：一面 LeetCode+ 大模型技术。二面团队负责人聊愿景。补考 Coding 后收到 Offer。
评价：纯研究方向，算力资源强，聚焦大语言模型与多模态。

24. 边塞科技

结果：拒绝
过程：专注 RLHF 微调，清华背景。RL 经验不足导致未通过。

二、面试感悟与行业观察

1. 技术迭代迅速

大模型领域发展极快，新模型与新 Paper 层出不穷，面试中常遇到刚发表不久的技术点，要求候选人保持持续学习。

2. 工程与研究并重

Research 岗位对工程能力有明确要求，工程端也需理解模型原理。硬核岗位通常要求全栈能力（应用、模型、框架、后端、硬件）。

3. 技能树建议

优先级：模型 > 框架 > 底层 > 其他
补充方向：在保持模型能力的同时，建议加强 Kernel、CUDA 等底层优化能力。

4. 薪资水平

大模型相关岗位总体薪资高于同级别传统互联网岗位。

5. 研究方向分布

目前多数公司集中在语言模型，部分研究岗涉及多模态预训练。RLHF 是极具前景的方向，建议强化学习经历者深挖。

三、高频考点与技术详解

针对基座算法与框架岗位，以下知识点在面试中出现频率极高，建议重点复习。

1. 多头注意力机制（MHA）

核心概念：Q、K、V 矩阵的投影计算，Attention Score 的 Softmax 归一化。
复杂度：时间复杂度 $O(N^2 imes d)$，空间复杂度 $O(N^2)$。其中 N 为序列长度，d 为隐藏层维度。
优化方案：KV-Cache（推理加速）、MQA（Multi-Query Attention）、GQA（Grouped Query Attention）。
代码实现：需掌握 PyTorch 或 TensorFlow 下的 MHA 手写实现，注意掩码（Mask）处理。

2. 并行策略与框架

并行方式：数据并行（Data Parallelism）、张量并行（Tensor Parallelism）、流水线并行（Pipeline Parallelism）。
优缺点对比：数据并行实现简单但显存受限；张量并行显存占用低但通信开销大。
工具库：DeepSpeed、Megatron-LM 的源码阅读有助于理解底层实现。
Flash-Attention：了解其 IO 感知优化原理，减少 HBM 读写次数，提升训练速度。

3. 主流模型架构细节

BERT vs GPT：BERT 基于双向 Encoder，GPT 基于单向 Decoder（自回归）。
位置编码：绝对位置编码与相对位置编码的区别，RoPE（Rotary Positional Embedding）的原理。
激活函数：ReLU、Swish、GELU 的选择及其对梯度传播的影响。

4. 大模型训练稳定性

常见问题：Loss Spike（损失值突增）、梯度爆炸、梯度消失。
解决方案：Gradient Clipping（梯度裁剪）、Learning Rate Warmup（学习率预热）、混合精度训练（AMP）。
验证方法：确认是否真实跑过基座训练，面试官常问细节以辨别简历真实性。

5. 数据处理与预处理

Tokenization：BPE（Byte Pair Encoding）算法原理，词表构建策略。
Masking：MLM（掩码语言模型）与 Next Token Prediction 的区别。
数据配比：不同语料（通用文本、代码、对话）的比例对模型性能的影响。

6. 评估体系（Evaluation）

指标：Perplexity（困惑度）、BLEU、ROUGE、Human Eval。
安全性：模型输出内容的合规性检测，对抗攻击防御。
框架搭建：部分面试会要求设计自动化评估框架，支持多选、生成任务评测。

7. 其他方向

多模态：CLIP、Diffusion 模型原理，图像 - 文本对齐技术。
RLHF：Reward Model 训练、PPO 算法在大模型对齐中的应用。

四、备考建议

基础夯实：熟练掌握 Transformer 变体及数学推导，这是面试的基石。
代码能力：LeetCode 刷题不能停，尤其是动态规划、图论及字符串处理题目。
项目复盘：对自己做过的项目要能讲透细节，包括遇到的坑及解决方案。
关注前沿：定期阅读 ArXiv 最新论文，了解 SOTA 技术进展。
模拟面试：找同行进行 Mock Interview，锻炼表达能力和临场反应。

注：以上经验基于个人面试记录整理，仅供参考。实际招聘情况可能随公司业务调整而变化。

目录

💰 8折买阿里云服务器限时8折了解详情

Magick API 一键接入全球大模型注册送1000万token查看
🤖 一键搭建Deepseek满血版了解详情
一键打造专属AI 智能体了解详情

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

C++ 多态核心解析：虚函数重写与动态绑定原理
C++ 泛型编程与模板详解：从原理到工程实践
Spatial Joy 2025 全球 AR&AI 开发大赛参赛指南
多卡部署 Qwen3-VL-32B：vLLM 通信瓶颈与 llama.cpp 实践
Python 实用工具库精选：网络检测、文本处理与 GUI 开发
搭建自然语言处理（NLP）系统的完整流程
Axios 错误处理的设计与进阶封装，实现网络层面的数据与状态解耦
C++ 异常处理机制：异常捕获、自定义异常与实战应用
DooTask 轻量级 AI 项目管理工具协同实践
基于无人机 RGB+红外双模态的小目标行人检测系统与数据集
大模型学习路线与核心知识体系梳理
Python 安装后缺失 pip 的解决方法
飞算 JavaAI：Java 开发者的智能编程助手
Redis Hash 深度解析：C++ 实战与性能优化指南
前端国际化实现指南：React 与 Vue 最佳实践
多 OpenClaw 机器人对接飞书实现群聊配置
低代码人事管理系统解决方案
Python 数学可视化：显函数、隐函数及复杂曲线交互绘图
Linux 进程核心概念：从冯·诺依曼体系到 PCB 详解
Kali Linux 系统安装与基础配置指南

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online