大模型岗位面试复盘
大模型技术近期发展迅速,在多个领域展现出巨大潜力。然而,其商业化落地、持续价值创造及适应监管变化的能力仍是关键考量。本文基于真实的大模型岗位面试经历,分享 20 家公司的面试情况、技术考察点及建议,希望能帮助求职者更好地准备。
面试概况
**投递公司:**淘天、字节、蚂蚁、商汤、美团、夸克、腾讯、MiniMax、零一万物、阿里控股、潞晨科技、阿里巴巴国际、网易实验室、Momenta 等。
**获得 Offer:**淘天、字节 AML、商汤、蚂蚁、美团、夸克、腾讯混元、天翼云。
详细面经
1. 淘天集团【Offer】
- 部门: 未来生活实验室
- 业务方向: 搜广推、逛逛内容化。团队由集团高层牵头。
- 一面:
- OCR 任务训练流程及实验设置。
- 高分辨率训练后在小分辨率上的表现稳定性。
- 输出 BBox(边界框)的优化方案。
- HR 面:
- 教育背景与转行动机(电子科大 -> 诺亚)。
- 代表性工作与多模态大模型评测指标。
- 如何看待行业刷榜现象。
- 体验: 面试体验良好,HR 专业,阿里味不重,最终选择加入。
2. 字节跳动 AML【Offer】
- 部门: 火山方舟大模型
- 预备知识: Hash 表设计、蓄水池采样、超大文本随机行采样、二叉搜索树修剪、交叉熵计算、IOU 计算。
- 一面:
- 多模态处理流程。
- OCR 结构细节。
- LayerNorm 的区别与应用。
- 二面:
- 多模态模型起步时间与文档场景 Token 长度问题。
- 高分辨率解决方案、Patch 机制、VQGAN、GPT4V 结构、LLM Decoder、MagViT。
- LLM 基础知识补充需求。
- 三面:
- 自我介绍。
- 多模态模型选型与 Transformer 熟悉度。
- Python 实现 Self-Attention 和 Transformer。
- 体验: 注重 Coding,每面约两道题。一面体验一般,但整体认可度较高。
3. 商汤科技【Offer】
- 一面:
- 自我介绍与高分辨率解决思路。
- OCR 是否包含 Grounding/Referring 能力。
- GPT4V 位置检测问题分析及位置信息解决方案。
- 新模态拼接与新数据训练策略。
- 算法题:判断 Tree1 是否为 Tree2 子树。
- 二面:
- AGI 与视觉的关系,工业场景检测与行为理解。
- 自驾感知到决策链路,假新闻检测与 Caption 场景。
- OCR 方案差异(街景 vs 文档),不规则文本处理。
- 多模态大模型 OCR 能力,Qwen-VL 文本检测合理性。
- 模型三种能力:自身认知、LISA 分割、外挂 RAG。
- 算法题:括号字符串合法性判断。
- 三面: Leader 面,侧重宏观交流。
- 体验: 技术领先,但产品落地与薪资竞争力有待考量。


