跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

国内 20 家大厂大模型岗位面试复盘与技术要点总结 | 极客日志

PythonAI算法

国内 20 家大厂大模型岗位面试复盘与技术要点总结

复盘了作者在国内 20 家知名互联网及科技公司的大模型岗位面试经历，涵盖淘天、字节、商汤、蚂蚁、美团等。内容涉及多模态大模型、OCR、Transformer 架构、自注意力机制实现、RAG 系统及模型微调等核心技术点。通过对比不同公司的面试风格与考察重点，为求职者提供技术准备方向与避坑指南，并梳理了从入门到商业闭环的大模型学习路径。

邪神洛基发布于 2025/2/7更新于 2026/7/2047 浏览

国内 20 家大厂大模型岗位面试复盘与技术要点总结

国内 20 家大厂大模型岗位面试复盘与技术要点总结

大模型技术近期发展迅速，在多个领域展现出巨大潜力。然而，其商业化成功及适应监管变化的能力仍是关键。本文基于真实的大模型岗位面试经历，分享多家公司的面经、技术考察点及面试体验，旨在帮助求职者更好地准备。

面试概况

投递公司： 淘天、字节、蚂蚁、商汤、美团、夸克、腾讯、MiniMax、零一万物、阿里控股、潞晨科技、阿里巴巴国际、网易实验室、Momenta 等。

获得 Offer： 淘天、字节 AML、商汤、蚂蚁、美团、夸克、腾讯混元、天翼云。

详细面经

1. 淘天集团【Offer】

部门： 未来生活实验室

业务方向： 搜广推、逛逛内容化。团队由戴珊、若海、郑波等人牵头。

一面

如何训练 OCR 任务？
实验的 Setting 设置细节。
OCR 任务对整体效果的影响评估。
高分辨率训练后在小分辨率上是否会崩溃？
输出 Bounding Box 是否有优化方式？

HR 面

基本信息确认：考研进入电子科大原因，为何加入诺亚。
代表性工作介绍。
问题解决思路：国内语言大模型较多，多模态大模型现状。
评测与评估：如何看待刷榜问题，衡量指标是什么。

面试体验： 体验良好，HR 态度专业，阿里味不重。最终选择淘天。

2. 字节跳动 AML【Offer】

部门： 火山方舟大模型

预备面经（猎头提供）

设计一个 Hash 表。
蓄水池采样问题。
从超大文本文件中随机行采样。
二叉搜索树 - 去掉超出 [m, n] 范围内的节点。
计算交叉熵。
计算 IOU。

一面

多模态处理流程。
OCR 结构解析。
LayerNorm 的区别。

二面

多模态模型起步时间。
文档场景下的 Token 长度过大问题及高分辨率解决方案。
Patch 机制调整。
VQGAN 结构。
GPT4V 的结构形式。
LLM Decoder 原理。
MagViT 架构。
建议： LLM 基础知识需尽快补全。

三面

自我介绍。
多模态大模型选型。
Transformer 熟悉度。
Python 实现 Self Attention 和 Transformer。

面试体验： 注重 Coding，每面两道题。一面体验一般，面试官缺乏经验。

3. 商汤科技【Offer】

一面

自我介绍。
高分辨率解决办法。
OCR 是否包含 Grounding/Referring。
GPT4V 在位置检测上的明显问题及解决方式。
新模态数据的拼接方式。
新数据批次训练策略。
Tree 结构判断：Tree1 是否是 Tree2 的子树。

二面

AGI 与视觉的关系。
工业场景：人检测、零件检测、机器检测及行为理解。
自驾感知端到决策端的感知需求差异。
假新闻检测：图真 caption 场景。
OCR 场景区分：街景、文档、网页截图混用影响。
OCR 方案：先检测框再识别，不规则文本处理。
多模态大模型的 OCR 能力。
Qwen-VL 文本检测形似合理性分析。
模型三种能力：自身认知、LISA（Decoder+Prompt 分割）、外挂 RAG。
括号字符串合法性判断。

三面

Leader 面，沟通为主。

面试体验： 技术领先，但产品落地不足，薪资包诚意一般。

4. 蚂蚁风控大模型【Offer】

一面

自我介绍。
Focus-DETR 介绍及业务应用情况。

二面

项目介绍及当前工作内容。
下游任务：文档场景及具体任务目标。
OCR 数据生成方法。
效果评估及幻觉问题解决。

HR 面

具体工作内容印象。
安全内容审核（ToB）及竞对分析。
跳槽动机：上海海思背景。
算法支撑能力。

5. MiniMax【挂】

一面

空间感知能力解决方式。
不同 Token 长度的 Balance 策略。
编程题： 实现 MLP Regressor 完整训练过程（Forward, Backward, SGD），验证梯度正确性，构建数据验证端到端收敛，不使用第三方自动求导库，推荐 Numpy 实现。

PS： 面试官对算法底层了解深入，侧重代码能力而非单纯刷题。

6. 零一万物【挂】

一面

多模态情况。
Document 难度评估。
手写 Self Attention。

二面

传统 OCR 模型与多模态大模型区别。
带不带 OCR 对多模态文档智能的影响。
未来 OCR 是否会被大模型替代。
预训练模型经验。
多模态未来发展方向。
EVA 模型涌现现象观察。
后续工作重点及训练形式（Gemini vs LLM）。

PS： 开放性问题多，反馈为业务积累不够。

7. 美团【Offer】

一面

文档大模型是独立还是整合进通用模型。
非通用场景考量。
当前模型规模及结构。
Flamingo 或 BLIP2 结构对比。
资源充足下的最优结构选择。
高分辨率文档处理方案。
QA 对匮乏解决。
OCR 性能低于多模态大模型的原因。
BBox 感知能力差的问题解决。
算力充足时的数据获取与清洗。
Fuyu 结构优化空间。

二面

OCR 文档大模型细节。
Instruction Tuning 决定性因素及策略评估。
数据集多样性与复杂度保证。
分层 Instruction Tuning。
数量与质量的影响。
自动化数据配比与指标引导优化。
OpenAI 压缩理论与 Training Loss 作为优化目标。
AGI 阶段划分（DeepMind 观点）。

三面 & 四面

综合问题及多模态大模型优化方案（类似 GPT4V 效果提升）。全流程强化 OCR 能力。

8. 阿里控股【Pass】

体验： 面试体验较差，面试官态度傲慢。涉及文生图畸形检测。

9. 潞晨科技【Pass】

一面： 手写 Self-Attention。NLP 背景面试官提问较难。

10. 夸克【Offer】

一面： 项目 + 做题。 二面： 高分辨率方案、重叠文本框处理、端到端 OCR。 三面： Focus-DETR、端到端 OCR、多模态大模型、小语种数据集采购逻辑。 四面： 概率题。 HR 面： 跳槽动机、职业规划、绩效奖项解释。

11. 腾讯 - 混元大模型【Offer】

一面： 简历描述、图像细节提取、表格信息抽取、数据量。 二面： OCR 算法、文本检测问题、MAE 优化。 三面： 纯聊天，多模态大模型 TEG 部门。

12. 阿里巴巴国际部【中止】

一面： 旋转图像 Alpha 度题目、Focus-Detr 介绍。 二面： 项目询问，无后续回复。

13. 网易实验室【Pass】

一面： 剪枝工作（Focus-DETR）、Transformer vs CNN/RNN 优势、推理加速、预训练部署优化。不适合推理加速方向。

14. Momenta【Pass】

一面： 手写 NMS、DETR 介绍、Focus-DETR、Position Embedding、Query 含义。薪资高但累，自动驾驶方向暂不考虑。

15. 蚂蚁 CodeFuse【HR 面挂】

一面： 项目聊。 二面： 多页文档解决、UI 多模态 OCR 引入、LeetCode（字符串转数字、最大子数组和）、多模态基础。 三面： 部门规模、论文、换部门经历、OCR 成熟度。 HR 面注意点：

跳槽动机：避免说晋升受阻，强调发展机会。
薪资：留谈判空间，不要直接拒绝。
加班：表示接受，大厂常态。

技术知识点补充与学习路径

针对面试中高频出现的概念，以下进行简要梳理，供参考。

1. 核心架构与模型

Self Attention： 核心在于 Query, Key, Value 的矩阵运算，计算复杂度 O(N^2)，是实现 Transformer 的基础。
Transformer： 相比 RNN/CNN，具备并行计算能力，长距离依赖建模更强。Encoder-Decoder 结构常用于序列到序列任务。
Focus-DETR： 一种改进的 DETR 模型，通过引入焦点机制增强对小目标或特定区域的关注，常用于目标检测。
Flamingo / BLIP2： 多模态模型代表。Flamingo 使用冻结的 LLM 和视觉编码器；BLIP2 通过 Q-Former 连接视觉与语言模型，效率更高。

2. OCR 与文档理解

端到端 OCR： 直接从图像输出文本，减少中间步骤误差。难点在于不规则文本检测和布局分析。
高分辨率处理： 通常采用分块（Patch）策略或动态分辨率调整，避免显存溢出同时保留细节。
幻觉问题： 多模态模型常出现图文不符，可通过 RAG（检索增强生成）或约束解码缓解。

3. 大模型学习与进阶路径

第一阶段：基础认知与应用

理解大模型基本原理（Tokenization, Embedding, Attention）。
掌握 Prompt Engineering 技巧（指令调优、思维链 CoT）。
能够调用 API 完成简单业务对接。

第二阶段：高阶实战与 RAG

搭建私有知识库，扩展 AI 能力边界。
掌握向量数据库（Vector DB）与向量检索原理。
实现基于 RAG 的 ChatPDF 系统，理解混合检索与 RAG-Fusion。
本地部署向量模型，优化检索延迟。

第三阶段：模型训练与微调

理解预训练、微调（Fine-tuning）、轻量化微调（LoRA）区别。
掌握 Transformer 结构细节，能手写简易神经网络。
构建高质量训练数据集，理解 Loss 函数与求解器。
尝试独立训练开源多模态大模型。

第四阶段：商业闭环与部署

硬件选型与成本评估（GPU/TPU）。
云端与本地环境部署（vLLM, PAI）。
内容安全与算法备案合规性。
寻找适合的项目方向，成为被 AI 武装的产品经理或工程师。

总结

社招关于大模型的知识点多为常识与项目深度结合。面试其他公司时基本以项目为主，刷题压力相对较小（除字节等外）。为了准备字节等大厂，建议刷 60 道左右 LeetCode 题目，重点覆盖 Hard 难度。推荐 Labuladong 刷题笔记作为辅助。

在选择 Offer 过程中，需权衡薪资、技术成长、业务前景及团队氛围。面对大公司 HR 面，建议提前准备常见问题的回答策略，保持积极态度。

目录

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

电影行业 AI 产品经理薪资飙升与行业变革分析
Claude Sonnet 4.6：大语言模型架构演进与前沿性能评估
Neo4j 图数据库核心特性与 K8s 集群部署实战
利用 AI 助手实现自然语言转 SQL 查询与 DDL 生成
SpringAI 框架深度解析：企业级 AI 应用开发与实战指南
MySQL InnoDB MVCC 多版本并发控制实现原理
前端开发者 Agent 工程化开发学习路线
AI 面试辅助工具即答侠技术架构与功能解析
二分查找实战：山峰数组的峰顶索引与寻找峰值
鸿蒙 WebView 混合开发中 Web 组件跨域问题的客户端解决方案
Linux 系统权限概念与管理命令详解
大语言模型 InternLM2（书生·浦语）一键部署
前端开发常用工具函数与样式技巧合集
大模型应用架构：知识图谱增强方案
OpenClaw 在 Windows 与 Ubuntu 下的安装配置指南
ClawdBot 个人 AI 助理完整安装与配置教程
Spring Boot 数据访问与数据库集成实战
Llama-3.2-3B 本地实测：中文法律理解与类案推荐效果
TradingView Webhook 警报免费配置与实现指南
Flutter WalletConnect 鸿蒙适配：Web3 钱包连接与 DApp 授权实战

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
curl 转代码
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online