国内 20 家大厂大模型岗位面试复盘与技术要点总结
大模型技术近期发展迅速,在多个领域展现出巨大潜力。然而,其商业化成功及适应监管变化的能力仍是关键。本文基于真实的大模型岗位面试经历,分享多家公司的面经、技术考察点及面试体验,旨在帮助求职者更好地准备。
面试概况
投递公司: 淘天、字节、蚂蚁、商汤、美团、夸克、腾讯、MiniMax、零一万物、阿里控股、潞晨科技、阿里巴巴国际、网易实验室、Momenta 等。
获得 Offer: 淘天、字节 AML、商汤、蚂蚁、美团、夸克、腾讯混元、天翼云。
详细面经
1. 淘天集团【Offer】
部门: 未来生活实验室
业务方向: 搜广推、逛逛内容化。团队由戴珊、若海、郑波等人牵头。
一面
- 如何训练 OCR 任务?
- 实验的 Setting 设置细节。
- OCR 任务对整体效果的影响评估。
- 高分辨率训练后在小分辨率上是否会崩溃?
- 输出 Bounding Box 是否有优化方式?
HR 面
- 基本信息确认:考研进入电子科大原因,为何加入诺亚。
- 代表性工作介绍。
- 问题解决思路:国内语言大模型较多,多模态大模型现状。
- 评测与评估:如何看待刷榜问题,衡量指标是什么。
面试体验: 体验良好,HR 态度专业,阿里味不重。最终选择淘天。
2. 字节跳动 AML【Offer】
部门: 火山方舟大模型
预备面经(猎头提供)
- 设计一个 Hash 表。
- 蓄水池采样问题。
- 从超大文本文件中随机行采样。
- 二叉搜索树 - 去掉超出 [m, n] 范围内的节点。
- 计算交叉熵。
- 计算 IOU。
一面
- 多模态处理流程。
- OCR 结构解析。
- LayerNorm 的区别。
二面
- 多模态模型起步时间。
- 文档场景下的 Token 长度过大问题及高分辨率解决方案。
- Patch 机制调整。
- VQGAN 结构。
- GPT4V 的结构形式。
- LLM Decoder 原理。
- MagViT 架构。
- 建议: LLM 基础知识需尽快补全。
三面
- 自我介绍。
- 多模态大模型选型。
- Transformer 熟悉度。
- Python 实现 Self Attention 和 Transformer。
面试体验: 注重 Coding,每面两道题。一面体验一般,面试官缺乏经验。
3. 商汤科技【Offer】
一面
- 自我介绍。
- 高分辨率解决办法。
- OCR 是否包含 Grounding/Referring。
- GPT4V 在位置检测上的明显问题及解决方式。
- 新模态数据的拼接方式。
- 新数据批次训练策略。
- Tree 结构判断:Tree1 是否是 Tree2 的子树。
二面
- AGI 与视觉的关系。
- 工业场景:人检测、零件检测、机器检测及行为理解。
- 自驾感知端到决策端的感知需求差异。
- 假新闻检测:图真 caption 场景。
- OCR 场景区分:街景、文档、网页截图混用影响。
- OCR 方案:先检测框再识别,不规则文本处理。
- 多模态大模型的 OCR 能力。
- Qwen-VL 文本检测形似合理性分析。
- 模型三种能力:自身认知、LISA(Decoder+Prompt 分割)、外挂 RAG。
- 括号字符串合法性判断。
三面
面试体验: 技术领先,但产品落地不足,薪资包诚意一般。
4. 蚂蚁风控大模型【Offer】
一面
- 自我介绍。
- Focus-DETR 介绍及业务应用情况。
二面
- 项目介绍及当前工作内容。
- 下游任务:文档场景及具体任务目标。
- OCR 数据生成方法。
- 效果评估及幻觉问题解决。
HR 面
- 具体工作内容印象。
- 安全内容审核(ToB)及竞对分析。
- 跳槽动机:上海海思背景。
- 算法支撑能力。
5. MiniMax【挂】
一面
- 空间感知能力解决方式。
- 不同 Token 长度的 Balance 策略。
- 编程题: 实现 MLP Regressor 完整训练过程(Forward, Backward, SGD),验证梯度正确性,构建数据验证端到端收敛,不使用第三方自动求导库,推荐 Numpy 实现。
PS: 面试官对算法底层了解深入,侧重代码能力而非单纯刷题。
6. 零一万物【挂】
一面
- 多模态情况。
- Document 难度评估。
- 手写 Self Attention。
二面
- 传统 OCR 模型与多模态大模型区别。
- 带不带 OCR 对多模态文档智能的影响。
- 未来 OCR 是否会被大模型替代。
- 预训练模型经验。
- 多模态未来发展方向。
- EVA 模型涌现现象观察。
- 后续工作重点及训练形式(Gemini vs LLM)。
PS: 开放性问题多,反馈为业务积累不够。
7. 美团【Offer】
一面
- 文档大模型是独立还是整合进通用模型。
- 非通用场景考量。
- 当前模型规模及结构。
- Flamingo 或 BLIP2 结构对比。
- 资源充足下的最优结构选择。
- 高分辨率文档处理方案。
- QA 对匮乏解决。
- OCR 性能低于多模态大模型的原因。
- BBox 感知能力差的问题解决。
- 算力充足时的数据获取与清洗。
- Fuyu 结构优化空间。
二面
- OCR 文档大模型细节。
- Instruction Tuning 决定性因素及策略评估。
- 数据集多样性与复杂度保证。
- 分层 Instruction Tuning。
- 数量与质量的影响。
- 自动化数据配比与指标引导优化。
- OpenAI 压缩理论与 Training Loss 作为优化目标。
- AGI 阶段划分(DeepMind 观点)。
三面 & 四面
- 综合问题及多模态大模型优化方案(类似 GPT4V 效果提升)。全流程强化 OCR 能力。
8. 阿里控股【Pass】
体验: 面试体验较差,面试官态度傲慢。涉及文生图畸形检测。
9. 潞晨科技【Pass】
一面: 手写 Self-Attention。NLP 背景面试官提问较难。
10. 夸克【Offer】
一面: 项目 + 做题。
二面: 高分辨率方案、重叠文本框处理、端到端 OCR。
三面: Focus-DETR、端到端 OCR、多模态大模型、小语种数据集采购逻辑。
四面: 概率题。
HR 面: 跳槽动机、职业规划、绩效奖项解释。
11. 腾讯 - 混元大模型【Offer】
一面: 简历描述、图像细节提取、表格信息抽取、数据量。
二面: OCR 算法、文本检测问题、MAE 优化。
三面: 纯聊天,多模态大模型 TEG 部门。
12. 阿里巴巴国际部【中止】
一面: 旋转图像 Alpha 度题目、Focus-Detr 介绍。
二面: 项目询问,无后续回复。
13. 网易实验室【Pass】
一面: 剪枝工作(Focus-DETR)、Transformer vs CNN/RNN 优势、推理加速、预训练部署优化。不适合推理加速方向。
14. Momenta【Pass】
一面: 手写 NMS、DETR 介绍、Focus-DETR、Position Embedding、Query 含义。薪资高但累,自动驾驶方向暂不考虑。
15. 蚂蚁 CodeFuse【HR 面挂】
一面: 项目聊。
二面: 多页文档解决、UI 多模态 OCR 引入、LeetCode(字符串转数字、最大子数组和)、多模态基础。
三面: 部门规模、论文、换部门经历、OCR 成熟度。
HR 面注意点:
- 跳槽动机:避免说晋升受阻,强调发展机会。
- 薪资:留谈判空间,不要直接拒绝。
- 加班:表示接受,大厂常态。
技术知识点补充与学习路径
针对面试中高频出现的概念,以下进行简要梳理,供参考。
1. 核心架构与模型
- Self Attention: 核心在于 Query, Key, Value 的矩阵运算,计算复杂度 O(N^2),是实现 Transformer 的基础。
- Transformer: 相比 RNN/CNN,具备并行计算能力,长距离依赖建模更强。Encoder-Decoder 结构常用于序列到序列任务。
- Focus-DETR: 一种改进的 DETR 模型,通过引入焦点机制增强对小目标或特定区域的关注,常用于目标检测。
- Flamingo / BLIP2: 多模态模型代表。Flamingo 使用冻结的 LLM 和视觉编码器;BLIP2 通过 Q-Former 连接视觉与语言模型,效率更高。
2. OCR 与文档理解
- 端到端 OCR: 直接从图像输出文本,减少中间步骤误差。难点在于不规则文本检测和布局分析。
- 高分辨率处理: 通常采用分块(Patch)策略或动态分辨率调整,避免显存溢出同时保留细节。
- 幻觉问题: 多模态模型常出现图文不符,可通过 RAG(检索增强生成)或约束解码缓解。
3. 大模型学习与进阶路径
第一阶段:基础认知与应用
- 理解大模型基本原理(Tokenization, Embedding, Attention)。
- 掌握 Prompt Engineering 技巧(指令调优、思维链 CoT)。
- 能够调用 API 完成简单业务对接。
第二阶段:高阶实战与 RAG
- 搭建私有知识库,扩展 AI 能力边界。
- 掌握向量数据库(Vector DB)与向量检索原理。
- 实现基于 RAG 的 ChatPDF 系统,理解混合检索与 RAG-Fusion。
- 本地部署向量模型,优化检索延迟。
第三阶段:模型训练与微调
- 理解预训练、微调(Fine-tuning)、轻量化微调(LoRA)区别。
- 掌握 Transformer 结构细节,能手写简易神经网络。
- 构建高质量训练数据集,理解 Loss 函数与求解器。
- 尝试独立训练开源多模态大模型。
第四阶段:商业闭环与部署
- 硬件选型与成本评估(GPU/TPU)。
- 云端与本地环境部署(vLLM, PAI)。
- 内容安全与算法备案合规性。
- 寻找适合的项目方向,成为被 AI 武装的产品经理或工程师。
总结
社招关于大模型的知识点多为常识与项目深度结合。面试其他公司时基本以项目为主,刷题压力相对较小(除字节等外)。为了准备字节等大厂,建议刷 60 道左右 LeetCode 题目,重点覆盖 Hard 难度。推荐 Labuladong 刷题笔记作为辅助。
在选择 Offer 过程中,需权衡薪资、技术成长、业务前景及团队氛围。面对大公司 HR 面,建议提前准备常见问题的回答策略,保持积极态度。