面试情况
投过的公司:淘天,字节,蚂蚁,商汤,美团,夸克,腾讯,minimax,零一万物,阿里控股,潞晨科技,阿里巴巴国际,网易实验室,Momenta。
Offer:淘天,字节 AML,商汤,蚂蚁,美团,夸克,腾讯混元,天翼云。
以下是面经分享。
淘天【offer】
部门:未来生活实验室
介绍:淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团 CEO 戴珊、淘天集团 CTO 若海、阿里妈妈 CTO 郑波等人共同牵头。
面经
一面:
- 如何训练 OCR 任务
- 实验的 setting
- OCR 任务影响如何
- 高分辨率训练,再在小分辨率上,会不会崩掉
- 输出 bbox 有没有好的方式
HR 面:
- 基本信息确认
- 考研进入电子科技大,为什么
- 为什么进入了诺亚
- 代表性的工作
- 如何解决问题的,国内在做语言大模型的多一些
- 国内在做多模态大模型的
- 如何评测,评估这些大模型的。如何看待刷榜的问题
- 你们的衡量指标
面试体验
面试体验很好。HR 也没有那么咄咄逼人。阿里味不是特别明显。最终权衡也选择来了淘天。
字节 AML【offer】
部门:AML 火山方舟大模型
介绍:字节跳动在 AML(AI Model Layer)方向投入巨大,专注于大模型的基础研究与行业应用落地。
预备面经
猎头提供了一些其他候选人的面经,整理如下:
- 设计一个 Hash 表
- 蓄水池问题
- 从超大文本文件中随机行采样
- 二叉搜索树 - 去掉超出 [m, n] 范围内的节点
- 计算交叉熵
- 计算 IOU
一面:
- 多模态你们的流程
- 你们的 OCR 的结构
- layernorm 的区别
二面:
- 什么时间开始做多模态模型
- 目前在文档
- Token 长度太大。高分辨率如何解决
- patch 能不能变得
- VQGAN
- GPT4V 的结构形式
- LLM decoder
- MagViT
- LLM 的基础知识需要尽快补上
三面:
- 自我介绍
- 多模态大模型用哪个模型
- Transformer 比较熟悉
- python 实现 self attention 和 Transformer
面试体验
字节一如既往的注重 coding,基本每一面两道题,自己能拿到 offer 也算是运气吧。一面的面试体验很差,可以说是毫无面试经验的面试官。
商汤【offer】
一面:
- 简单的自我介绍
- 关于高分辨率的解决办法
- OCR 是如何去做的,有没有 grounding,Referring
- GPT4V 位置,检测明显的问题
- 你们是如何解决位置信息的
- 新的模态进来,如何去拼接过来
- 新来一批数据,如何训练
- tree1 是否是 tree2 的子树
二面:
- AGI 缺不了视觉
- 工业场景,人的检测,奇怪的零件,机器的检测。检测的结果,需要理解人的行为。理解和 context 的关系。人和环境的关系。借助多模态来解决
- 自驾,感知端,到决策端,感知不需要全面的感知,着重额感知需要
- 假新闻,图是真的。caption 场景
- OCR,街景的 OCR,文档,网页截图等是不同的,这些场景混在一起。会有影响吗?
- OCR 的方案,一般是先出检测框,再出文本。不规则的文本,如何解决
- 多模态大模型的 OCR
- Qwen-VL 的文本检测形似,是否合理
- 模型本身的三种能力
- 自己的能力,认识什么
- LISA:借助 decoder 来做,用新的 prompt 来实现分割
- 外挂 RAG 等
- 判断左右括号(),等组成的字符串是否是合法的
二面结束,问题不大。
三面:
面试体验
面试过程很专业,毕竟是商汤,算法技术是国内领先的,奈何没产品,而且薪资包也没有诚意。
蚂蚁风控大模型【offer】
一面:
- 自我介绍
- 介绍 Focus-DETR,有没有在业务中应用
二面:
- 介绍
- 目前在做的事情
- 下游的任务,文档场景,再做一个什么任务
- ocr 数据是如何生成的
- 效果如何
- 如何解决幻觉的问题
HR 面:
- 具体的工作内容,印象
- 安全内容,tob 的内容审核。竞对
- 个人介绍
- 上海海思,为什么跳槽
- 算法支撑
MiniMax:【挂】
一面:
- 空间感知能力是如何解决的
- 不同 token 长度是否有做 balance 的方式
- 很多有价值的问题
- python 实现标题 MLP Regressor 题目描述与要求:实现一个 MLP regressor 的完整训练过程,包括:forward , backward , SGD 更新参数;验证 backward 梯度正确性;构建数据,验证端到端正确性 (收敛&泛化);(optional) 参考你过往的实验经验,尽可能让功能更完善;不使用第三方库中已实现好的自动求导方法;P.S. 实现方法不限,但由于在线 IDE 运行环境不稳定,推荐使用 numpy。
PS: 面试官对算法底层了解比较深入,比较考验代码能力,不是字节那种。
零一万物【挂】
一面:
- 多模态的情况
- document 的难度
- 手写 self attention
二面:
- 自我介绍
- 传统的 OCR 模型和多模态大模型的区别
- 带不带 OCR,多模态文档智能差多少
- 未来 OCR 模型是否会被大模型吃掉。OCR 大模型有什么是做不了的
- 在哪些模型上做过一些预训练
- 多模态未来怎么做
- EVA 的有趣的现象。没有出现涌现的现象
- 后面的工作主要集中在哪里
- 怎么训练比较好,gemini 那种形式,llm 那种形式
PS: 问了很多开放性的问题,给的回复是业务积累不够。
美团【offer】
一面:
- 文档大模型是一个独立的模型,会整合到一个大模型还是分离式的
- 不考虑通用场景的
- 目前用的多大的模型
- 是一个什么结构。对结构的一些了解
- flamingo 或者 blip2 的结构上的对比
- 足够资源的情况下,哪个结构是最优的
- 分辨率是如何解决的。文档的分辨率比较高
- QA 对匮乏如何解决的
- ocr 的性能目前是低于多模态大模型
- 如何解决 bbox 感知能力差的问题
- 充足的算力。数据如何获取。如何有效的清洗
- fuyu 这种结构有什么优化的空间
二面:
- OCR 文档大模型
- Instruction tuning 的决定性因素,哪些 Instruction tuning 策略效果更好。如何评估复杂度的性能
- 如何保证数据集的多样性和复杂度
- 分层的 Instruction tuning
- 数量的影响。数量和质量
- 不同类型数据的影响。对下游任务的影响。自动化的数据配比。自动化的指标去做类似的事情
- 专门优化的指标不再是一个好的指标
- 使用其他的指标来引导模型的优化,而不是使用下游的指标。LLM 使用的 loss,作为指标。而不是 benchmark 的分数
- 合理的评估指标是什么。openAI 的压缩理论,trainnig loss 代表优化目标
- AGI 的几个阶段,deepmind 发表
三面:
四面:
- 介绍自己
- 有一个多模态大模型,具备一些很多 baseline 的效果,基础的 CV 能力。可能效果都不是特别好。不如专精的大模型。OCR 为例。目标得到一个类似 GPT4V 的模型,整理提高模型的效果。第二个,全流程,强化 ocr 能力。已有的多模态大模型
- 文档场景
阿里控股【PASS】
一面:
这里没什么面经,整体面试体验很差。不考虑继续往下面。
- 人非常高傲,傲慢,问问题,满脸的嫌弃
- 感觉别人都不行
- 觉得自己很强
- 文生图
- 文生图的畸形,检测的方式
潞晨科技【PASS】
一面:
- 手写 self-attention
emmm,但凡面试官是 NLP 的,面试体验都不太好。如果 NLP 背景的面试官,面试会比较困难。
夸克【offer】
一面:
二面:
- 高分辨率的解决方案
- 重叠文本框。采用什么方案来解决
- 端到端的 OCR 是怎么做的
三面:
- 介绍 Focus-DETR
- 介绍端到端的 OCR
- 介绍多模态大模型
- 小语种数据集采购是为什么。检测数据多了,识别数据少了
- 介绍业务规划,偏传统业务,不是大模型方向
四面:
大佬面,出了一个概率题。
HR 面:
腾讯 - 混元大模型【offer】
一面:
- 简单描述简历,在做的东西
- 图像细节提取有什么办法
- 目前的进展是什么样的,项目进展到什么情况
- 表格这种数据如何解决,如何对表格这种做有效的信息抽取
- 目前有多少的数据量
二面:
- OCR 算法
- 项目
- 介绍文本检测的一些问题如何解决
- MAE 如何优化,什么鬼问题
三面:
纯聊天,没有太多技术问题。
- 多模态大模型,TEG,数据平台事业部。混元大模型。机器学习平台。
阿里巴巴国际部【中止】
一面:
- 题目,旋转图像 Alpha 度
- 介绍项目
- 介绍 Focus-Detr
二面:
PS: 不靠谱,很久没消息。没有后续的任何回复。这种最恶心了,建议大家不要再投。
网易实验室【PASS】
一面:
- 自我介绍
- 剪枝的工作,Focos-DETR 是如何剪枝的
- Transformer 相比 CNN,相比 RNN 的优势
- 训练推理,增加吞吐量
- 推理加速。预训练模型的部署推理,优化
做推理加速的不合适。
Momenta【PASS】
一面:
- 手写 NMS
- 介绍 DETR
- 介绍 Focus-DETR
- 介绍 position Embedding
- 介绍 DETR 里面 query 的含义
PS: Momenta 属于给钱多,但是比较累的。以后不太想做自动驾驶了,所以 pass。不再考虑。
蚂蚁【大模型-codefuse】【HR 面挂】
一面: 简单聊项目
二面:
- 业务题,如何解决多页文档的问题
- 业务题,现在 ui 多模态大模型,ocr 如何引入,目前 ocr 存在很多问题
- leetcode 题目,字符串转数字
- leetcode 题目,最大子数组和
- 多模态大模型的基础知识
三面:
- 个人介绍
- 部门规模
- 论文的情况
- 换过部门
- 海思做的内容
- OCR 成熟度很高
面试体验
面试官都很专业,问了很多问题,感觉很强。在 HR 面上吃了亏,很多问题没有回答好,吸取了经验,很多问题调整了回答的方式。也反思了自己在过往工作中存在的问题,面对大公司建议 HR 面认真准备,看看网上的一些经验,阿里的 HR 有一票否决权。
HR 面注意点
- 跳槽动机:如果是因为晋升不上去看机会,建议这么说:内部机会少,太稳定,想看更有发展的机会,别直接说晋升不上去才看机会,切勿说和 leader 处不来或者说目前 leader 坏话。
- 关于薪资:可以回答看企业安排,或者回答一个区间,保底多少,期望多少,加一句薪资可谈,留足谈判空间,如果企业给的薪资不太满意,别直接拒绝,就说考虑一下,我这边去谈,最后面试结束时,记得感谢下面试官的时间。
- 关于加班:大厂都大差不差,HR 问就是试探切勿说接受不了。
大模型岗位备考建议
根据上述多家公司的面试反馈,总结以下核心备考策略:
- 基础算法与数据结构:字节、MiniMax 等公司非常看重 Coding 能力,尤其是手写 Attention、Transformer、NMS 等核心模块。建议复习 LeetCode 中等及以上难度题目,重点掌握动态规划、树、链表及常用数据结构。
- 大模型核心技术:
- Transformer 架构:必须熟练掌握 Self-Attention 机制、LayerNorm、Positional Encoding 的原理及 PyTorch 实现。
- 多模态技术:重点理解 CLIP、BLIP、Flamingo 等经典模型架构,以及 VQGAN、Diffusion 等生成式模型原理。
- OCR 与文档理解:熟悉 OCR 检测与识别流程,了解端到端 OCR 方案(如 PaddleOCR),以及针对高分辨率文档的处理技巧(如 Patch 切分、多尺度训练)。
- 指令微调(Instruction Tuning):理解 SFT 的重要性,掌握数据构造、Prompt 工程及评估指标(如 BLEU, ROUGE, Perplexity)。
- 项目深度挖掘:面试官常追问项目细节,如'如何解决幻觉'、'数据清洗流程'、'模型量化与加速'。需准备好 STAR 法则描述的项目亮点,并能解释清楚技术选型的理由。
- HR 面准备:大厂 HR 拥有一票否决权。需清晰表达职业规划,避免负面评价前公司或领导。薪资谈判时保持弹性,强调成长性与匹配度。
- 前沿追踪:关注最新论文(如 DeepMind 的 AGI 阶段论、OpenAI 的压缩理论),了解业界主流模型(如 GPT-4V, Qwen-VL, Llama)的演进路线。
核心知识点梳理
- Self-Attention:Query, Key, Value 矩阵计算,Softmax 归一化,Mask 机制。
- Vision Transformer (ViT):Patch Embedding, Class Token, Position Embedding。
- Decoder-only vs Encoder-Decoder:LLM 通常采用 Decoder-only,而 OCR/Translation 多用 Encoder-Decoder。
- RAG (Retrieval-Augmented Generation):检索增强生成,解决知识时效性与幻觉问题。
- Loss Function:Cross Entropy, Contrastive Loss, Focal Loss 等在多模态中的应用。
- 推理加速:KV Cache, Quantization (INT8/FP16), FlashAttention。
以上经验基于实际面试经历整理,仅供参考。祝各位求职者顺利拿到心仪 Offer。