AGI 大模型算法岗位面试经验汇总
本文汇总了字节、饿了么、网易伏羲、好未来等大厂的大模型及 AIGC 相关岗位的面试经历,涵盖了一面、二面的技术考察点与算法题,并补充了核心知识点解析,供求职者参考。
字节跳动 暑期实习 多模态算法 (二面)
一面 (2024/3/28)
- 自我介绍:无自我介绍环节,直接进入正题。
- 论文介绍:详细介绍 NeurIPS 论文,面试官穿插提问。
- Transformer 基础:询问 Transformer 的整体结构。
- 位置编码:了解有哪些位置编码方式?
- RoPE 详解:具体说明 LLaMA 中的旋转位置编码(Rotary Position Embedding)原理。
- 算法题 1:求平方根,使用牛顿迭代法实现。
- 算法题 2:判断一个字符串能否由另一个字符串旋转而来(如 abcd -> dabc),要求 O(1) 时间复杂度。
- 项目经历:详细询问快手用户推荐算法实习内容。
- 结合能力:NeurIPS 论文如何与推荐系统结合?
- 动态性思考:论文中是否考虑事件属性或动态性?后续计划如何改进?
- 本科项目:负荷预测的背景、输入输出及常用模型。
二面 (2024/4/8)
- 自我介绍。
- 项目深挖:详细介绍快手实习经历,穿插十余个相关问题。
- 论文复述:再次介绍 NeurIPS 论文。
- 注意力机制:Transformer 的多头注意力机制(Multi-Head Attention)原理。
- 算法题 1:BFS 求岛屿数量。
- 算法题 2:回文子串问题,使用动态规划(DP)解决。
- 反问环节。
饿了么 暑期实习 AIGC (KPI 凉经)
一面 (2024/3/28)
- 自我介绍。
- 项目经历:介绍快手推荐实习经历。
- 推荐系统:全链路过程讲解。
- 论文介绍:NeurIPS 论文内容。
- 本科项目:App 开发经历。
- AIGC/LLM 认知:对 AIGC 和大语言模型的了解程度及自学情况。
- AGI 观点:对 AGI 的看法,结合人类意识与人脑发展分析是否能达到。
- 预训练经验:是否有过大模型预训练上手经验。
- Attention 原理:Transformer 中 Attention 的具体原理及设计动机。
- LLM 训练流程:大语言模型训练的整体过程。
- RLHF:介绍强化学习人类反馈(Reinforcement Learning from Human Feedback)原理。
- DDPM:介绍去噪扩散概率模型(Denoising Diffusion Probabilistic Models)原理。
- NLP 发展:自然语言处理的大致发展流程。
- PyTorch 实战:最近遇到的 PyTorch Bug 及处理方式。
- 损失函数:PyTorch 中常见的损失函数。
- Agent 建议:面试官建议了解 LLM Agent,暗示匹配度不足。
- 反问环节:部门主要业务内容。 注:面试后官网职位下架,疑似 KPI 面试。
山水比德 AIGC
- 自我介绍。
- 应用场景:针对外景设计 AI 方案有哪些?
- 项目价值:项目对公司应用的具体帮助。
- 反问环节。 注:侧重应用端,技术要求相对较浅,HR 与技术共同面试。
网易 伏羲 大模型算法实习
一面 (36 分钟)
- 自我介绍。
- 项目拷打 1:论文项目,情绪流建模的必要性,为何不直接对比 ChatGPT。
- 项目拷打 2:RAG 项目,数据集构建细节,提升问答效果的方向。
- 场景题:
- 对话场景中如何更好识别用户意图?
- 如何设计个性可随意切换的问答系统?
- 反问环节:部门业务(与雷火合作,做智能 NPC)。 注:无算法题,偏重自由发挥与场景设计。
二面 (26 分钟速通)
- 自我介绍。
- 项目拷打 1:RAG 项目,团队分工,哪种优化方式提升指标最多。
- 项目拷打 2:论文项目,共享屏幕讲解论文,追问较少。
- 反问环节:确认部门业务(智能 NPC)。
- 入职信息:到岗时间、实习时长、其他 Offer 情况。 注:未涉及算法题,主管面试,体验较好。
好未来 大模型
- 自我介绍。
- 项目细节:具体模块细节深挖。
- 算法题:组合总和问题(Combination Sum),且无重复元素。
- 解码策略:贪心算法、随机采样等,部分候选人未答出。
- 模型对比:T5 模型与 BERT 的区别(项目中使用了 T5),Self-Attention 机制。
- RAG 技术:大模型检索增强生成相关知识。
- LLaMA 结构:LLaMA 具体架构细节。
- RLHF 技术:强化学习人类反馈技术。
- 微调经验:是否微调过大模型,具体流程讲解。 注:面试体验良好,已发 Offer。
面试核心知识点解析
为了帮助读者更好地准备此类面试,以下对文中高频出现的核心技术点进行补充解析。
1. Transformer 与位置编码
- 整体结构:包含 Encoder 和 Decoder 堆叠,核心是 Self-Attention 和前馈神经网络(FFN)。
- 位置编码:由于 Self-Attention 是置换不变的,需引入位置信息。常见方式包括绝对位置编码、相对位置编码以及 LLaMA 使用的旋转位置编码(RoPE)。RoPE 通过旋转矩阵将位置信息融入 Query 和 Key 向量,具有更好的外推性能。
- 多头注意力:将输入投影到多个子空间并行计算注意力,最后拼接输出,增强了模型捕捉不同特征的能力。
2. 大模型训练流程
- 预训练(Pre-training):在大规模无标注语料上训练,学习通用语言表示。
- 监督微调(SFT):使用指令数据对模型进行微调,使其遵循指令。
- RLHF:通过奖励模型(Reward Model)对人类偏好进行排序,利用 PPO 等算法优化策略模型,使输出更符合人类价值观。
3. RAG (检索增强生成)
- 原理:当模型回答时,先从外部知识库检索相关信息,再将其作为上下文输入给大模型生成答案。
- 优化方向:提高检索准确率(Embedding 模型选择、分块策略)、优化生成质量(Prompt 工程、混合检索)。
4. 扩散模型 (DDPM)
- 前向过程:逐步向图像添加高斯噪声,直至变成纯噪声。
- 反向过程:学习从噪声中恢复图像的逆向过程,用于文生图任务。
5. 常见算法题思路
- 字符串旋转:判断 s1 是否为 s2 的子串且长度相同,若
s2 + s2包含s1则成立(O(N)),但题目要求 O(1) 通常指空间复杂度,时间复杂度无法低于 O(N)。若指空间 O(1),可使用双指针模拟旋转。 - 岛屿数量:典型的 BFS 或 DFS 连通性问题,遍历网格标记访问过的节点。
- 回文子串:中心扩展法或动态规划。DP 状态定义为
dp[i][j]表示s[i..j]是否为回文。 - 组合总和:回溯算法,注意剪枝避免重复组合。
6. 模型对比
- BERT vs T5:BERT 基于 Encoder 架构,主要用于理解任务(分类、抽取);T5 基于 Encoder-Decoder 架构,将 NLP 任务统一为文本到文本形式,更适合生成任务。
- LLaMA:采用 SwiGLU 激活函数、RoPE 位置编码及 RMSNorm 归一化,提升了训练效率与推理性能。


