跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

国内大模型公司面试经历与心得总结

综述由AI生成总结了作者在 2023 年参与多家国内大模型及互联网公司的面试经历,涵盖智元机器人、面壁科技、Minimax、阿里夸克、蚂蚁、百度文心等企业的面试流程与结果。内容包含对面试官背景、考察重点(如 Transformer 架构、分布式训练、MHA 实现)的分析,以及针对基座算法岗位的复习建议。文章还梳理了高频考点,包括注意力机制、并行策略、数据处理及评估方法,并为求职者提供了技术栈发展方向的参考意见。

虚拟内存发布于 2025/2/7更新于 2026/6/225 浏览
国内大模型公司面试经历与心得总结

2023 年,大模型在国内迅速兴起,笔者参与了多家大厂及初创公司的面试。本文综合整理了面试经验、感悟及技术考察重点,旨在为同行提供参考。

面试经历概览

  1. 智元机器人(Agibot):一面由创始人稚晖君主面,考察简历经历及 Transformer 基础(MHA、复杂度、BERT/GPT)。后续无反馈,判定未通过。具身智能方向值得关注。
  2. 面壁科技/面壁智能:两面,侧重训练细节与 Transformer 内容。团队年轻,清华背景居多,资金充足,薪资较高。
  3. 光年之外:猎头推荐,简历阶段被拒。
  4. 北京智源人工智能研究院:3-4 轮面试,涉及 Evaluation 与训练团队。流程中面试官爽约且后续无消息,默拒。
  5. 360:猎头沟通高 P 岗位(P8+),简历被拒。
  6. Minimax:4+ 轮面试,侧重 LeetCode,大模型问题较浅。最后一轮分配至框架组,算法组机会较少。薪资较高但业务方向沟通不足。
  7. 昆仑万维:考察训练细节(参数量、参数大小等),无 LeetCode。薪资相对其他公司略低,但猎头反馈整体尚可。
  8. 云从科技:两轮面试,第二轮时长超 2 小时,深入探讨模型端、框架端及研究细节。虽交流愉快但最终被拒。
  9. 阿里夸克:4 轮面试,含 2 轮 LeetCode。第三轮考察标准大模型问题(Transformer、分布式、Loss Spike 处理)。第四轮交叉面试涉及搜广推概率论及 OS 知识。Offer 发放后 HR 沟通体验一般。
  10. 衔远:3 轮面试,最后一面与周伯文老师交流。提供框架岗位,薪资较高,但个人意向为模型相关。
  11. 潞晨科技(Colossal-AI):框架为主,考察模型切分、Flash-Attention 等底层技术。表达想做算法后转岗算法组,因 HC 少及基座方向不明确被拒。
  12. 蚂蚁:徐鹏老师团队。强调 Research 与 Engineering 不分家。HR 面后直接发 Offer,首年总包包含签字费。
  13. 腾讯:猎头要求 PhD,简历被拒。
  14. 小红书:猎头要求 PhD,简历被拒。
  15. 商汤:两轮面试,一面 LeetCode+手写 MHA,二面表现不佳,最终被拒。
  16. 百川智能:一面通过后,二面迟到导致被拒,理由称需 3 年以上经验。
  17. 百度文心:多轮面试,数据组转模型组。考察 Transformer、训练细节。分组细致(模型、框架、数据分离),薪资底薪较高。
  18. 科大讯飞:HR 沟通阶段因地点(合肥)原因被拒。
  19. IDEA 研究院:一面即被拒。
  20. 好未来:团队背景相对一般,一面 LeetCode 未答出,模型轮通过。项目涉及数学 GPT 模型。
  21. 零一万物:一面推荐系统经验,二面复杂 LeetCode 未通过。好奇后续是否有大模型专家面试。
  22. 月之暗面(Moonshot):面试专业度极高。考察 Transformer、分布式通信(Ring-Reduce)、CUDA 实现及难 LeetCode。创始人及团队背景顶尖,可惜未通过。
  23. 阿里达摩院(新达摩院):一面 LeetCode 补考 Coding,二面与大老板交流愿景。纯研究方向,算力强,聚焦 LLM 与多模态。
  24. 边塞科技:专注 RLHF 微调,清华背景。RL 经验不足导致未通过。

面试感悟

  1. 竞争激烈:新技术与新 Paper 迭代快,面试内容更新频繁。
  2. 工程与科研并重:Research 岗位对工程能力有要求,工程端也需理解模型原理。
  3. 硬核岗位全栈化:尤其是初创公司,往往要求同时掌握应用、模型、框架、后端甚至硬件知识。
  4. 技术栈建议:模型 > 框架 > 底层 > 其他。建议在保持模型能力的同时,补充 Kernel 等底层能力。
  • 市场趋势:RLHF 是重要方向,强化学习经历值得深挖。大多数公司仍集中在语言模型,部分涉及多模态预训练。
  • 薪资水平:大模型方向整体薪资相对较高。
  • 高频考点详解

    针对基座算法与框架岗位,以下是核心复习点:

    1. 多头注意力机制 (Multi-Head Attention)

    这是 Transformer 架构的核心,几乎必考。

    • 原理:将输入投影到多个子空间,并行计算注意力,最后拼接并线性变换。
    • 复杂度:时间复杂度 $O(N^2 imes d)$,空间复杂度同理。需关注序列长度 $N$ 和维度 $d$ 的影响。
    • 优化技术:
      • KV Cache:推理时缓存 Key 和 Value,避免重复计算,显著降低显存占用和延迟。
      • MQA/GQA:Multi-Query / Grouped-Query Attention,减少 KV Cache 大小,提升推理速度。
    • 代码实现:常要求手写 MHA 或简化版,需注意 Mask 处理和 Softmax 数值稳定性。
    2. 框架与并行策略
    • 并行方式:
      • 数据并行 (Data Parallelism):复制模型,分发数据,同步梯度。常用 DeepSpeed ZeRO 优化显存。
      • 张量并行 (Tensor Parallelism):拆分矩阵运算,跨卡通信频繁,适合单卡显存不足的大模型。
      • 流水线并行 (Pipeline Parallelism):按层拆分模型,解决超大模型部署问题。
    • 工具库:熟悉 Megatron-LM 和 DeepSpeed 的源码结构,了解 Flash-Attention 的原理(IO 感知优化)。
    3. 主流模型架构细节
    • BERT vs GPT:BERT 基于双向掩码,GPT 基于自回归因果掩码。需理解位置编码(Absolute, Relative, RoPE)的差异及其对长文本的影响。
    • 激活函数:ReLU, SwiGLU, GeLU 等在 Transformer 中的选择依据。
    • 归一化:Pre-Norm 与 Post-Norm 的区别及对训练稳定性的影响。
    4. 大模型训练实战
    • Loss Spike 处理:常见原因包括学习率过大、梯度爆炸、数据异常。解决方案包括梯度裁剪 (Gradient Clipping)、Warmup 策略、混合精度训练 (AMP)。
    • 显存优化:Offload 到 CPU、ZeRO 阶段划分、激活重计算 (Activation Checkpointing)。
    • 验证:确认是否真实跑过基座训练,面试官常问具体 Batch Size、Optimizer 配置等细节。
    5. 数据处理
    • Tokenization:BPE (Byte Pair Encoding) 算法原理,词表大小对模型性能的影响。
    • Mask 策略:MLM (Masked Language Modeling) 与 Causal LM 的数据配比。
    • 清洗:去重、过滤低质量文本对收敛速度的影响。
    6. 评估体系
    • 指标:Perplexity (困惑度)、Accuracy、F1 Score 等。
    • 安全与有效性:红队测试 (Red Teaming)、偏见检测、幻觉抑制。
    • 手写 Eval 框架:部分公司要求设计简单的评测脚本,涵盖生成任务与选择题。
    7. 扩展领域
    • 多模态:CLIP、Diffusion 模型基础,图文对齐原理。
    • RLHF:Reward Model 训练、PPO 算法在 SFT 后的应用。若具备 RL 经验,将是显著加分项。

    结语

    大模型领域技术迭代迅速,建议求职者保持持续学习的心态。在夯实模型理论基础的同时,加强工程落地能力,特别是分布式训练与底层优化的知识储备,将有助于在激烈的竞争中脱颖而出。

    目录

    1. 面试经历概览
    2. 面试感悟
    3. 高频考点详解
    4. 1. 多头注意力机制 (Multi-Head Attention)
    5. 2. 框架与并行策略
    6. 3. 主流模型架构细节
    7. 4. 大模型训练实战
    8. 5. 数据处理
    9. 6. 评估体系
    10. 7. 扩展领域
    11. 结语
    • 💰 8折买阿里云服务器限时8折了解详情
    • Magick API 一键接入全球大模型注册送1000万token查看
    • 🤖 一键搭建Deepseek满血版了解详情
    • 一键打造专属AI 智能体了解详情
    极客日志微信公众号二维码

    微信扫一扫,关注极客日志

    微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

    更多推荐文章

    查看全部
    • 通义万相 2.1 视频生成模型部署与性能解析
    • Web 开发者构建 Skills 市场与共享经济实战指南
    • Cursor 中集成 MCP 服务配置与实战
    • 浏览器 F5 刷新机制深度解析
    • GLM-4.7 技术解析:开源模型在编码与推理上的新突破
    • Stable Diffusion 模型原理与本地部署实践
    • 浏览器远程桌面 Web RDP 完整实现指南
    • PCTF2025 Web 赛题实战解析:从整数溢出到 SSTI
    • 基于 RocketMQ 实现分布式事务最终一致性
    • 大模型 2.0 时代:快速入局与商业机遇分析
    • 2026 年主流 AI 编程工具盘点:Copilot、Cursor 等选型指南
    • Hybrid A*算法原理及 C++ 路径规划实现
    • Python 设计模式实战:核心模式代码实现
    • DeepSeek 降 AI 指令组合使用指南:三步降低检测率
    • C++ 算法实战:图书整理 I(反转链表)从 C 到 C++ 的过渡
    • OpenClaw 多机器人团队协作构建指南
    • Llama-Factory 实现会议纪要生成:语音转写与摘要一体化
    • 扣子(Coze)Skills+OpenClaw 实战:构建 AI 智能体自动化技能
    • Python 语音助手配置指南:智能语音交互系统搭建
    • WebAI2API:将网页版 AI 转换为兼容 OpenAI 协议的 API 工具

    相关免费在线工具

    • 加密/解密文本

      使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

    • RSA密钥对生成器

      生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

    • Mermaid 预览与可视化编辑

      基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

    • 随机西班牙地址生成器

      随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

    • Gemini 图片去水印

      基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

    • Base64 字符串编码/解码

      将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online