跳到主要内容

极客日志面向AI+效率的开发者社区

首页博客 GitHub 精选镜像 AI 生图工具 UI配色美学隐私政策关于联系

搜索内容 / 工具 / 仓库 / 镜像...⌘K 搜索

国内多家大厂大模型岗位面试经验与总结 | 极客日志

编程语言AI算法

国内多家大厂大模型岗位面试经验与总结

汇总了国内多家知名互联网及科技公司大模型岗位的面试经验，涵盖淘天、字节、蚂蚁、商汤、美团、腾讯等企业的技术考察点与面试流程。内容详细记录了多模态、OCR、Transformer 架构、Instruction Tuning 等核心技术问题的提问方式，以及 HR 面的注意事项。文章分析了当前大模型岗位的技术热点，包括基础架构深度、工程落地能力及 Coding 要求，并为求职者提供了针对性的准备建议，旨在帮助候选人系统梳理知识体系，提升面试通过率。

独立开发者发布于 2025/2/7更新于 2026/7/2540 浏览

国内多家大厂大模型岗位面试经验与总结

国内多家大厂大模型岗位面试经验汇总

面试概况

本次分享涵盖了投递的多家互联网及科技公司的大模型相关岗位，包括淘天、字节、蚂蚁、商汤、美团、夸克、腾讯、MiniMax、零一万物、阿里控股、潞晨科技、阿里巴巴国际、网易实验室、Momenta 等。

获得 Offer 的公司：淘天、字节 AML、商汤、蚂蚁、美团、夸克、腾讯混元、天翼云。

以下是对各公司面试流程、技术考察点及体验的详细复盘。

淘天集团【Offer】

部门介绍

未来生活实验室。淘天集团的大模型研究主要围绕搜广推和逛逛内容化两个场景展开。团队由淘天集团高层共同牵头。

面试流程

一面

如何训练 OCR 任务？
实验的 Setting 设置？
OCR 任务的影响评估方式？
高分辨率训练后在小分辨率上是否会崩溃？
输出 BBox（边界框）是否有优化方案？

HR 面

基本信息确认。
考研进入电子科技大学的原因。
为什么选择加入诺亚实验室。
代表性工作介绍。
解决问题的思路，特别是国内语言大模型与多模态大模型的现状对比。
大模型的评测指标与评估体系。
如何看待行业内的刷榜问题。

面试体验

面试体验良好，HR 态度专业且不过于咄咄逼人，阿里文化气息不浓。最终权衡后选择了淘天。

字节跳动 AML【Offer】

部门介绍

AML 火山方舟大模型部门。专注于大模型的基础研究与落地应用。

面试流程

预备面经（猎头提供）

设计一个 Hash 表。
蓄水池采样问题。
从超大文本文件中随机行采样。
二叉搜索树 - 去掉超出 [m, n] 范围内的节点。
计算交叉熵。
计算 IOU（交并比）。

一面

多模态大模型的流程是怎样的？
OCR 的具体结构是什么？
LayerNorm 的区别与应用场景。

二面

什么时候开始做多模态模型？
目前在文档处理方面的进展。
Token 长度过大时，高分辨率如何解决？
Patch 大小的调整策略。
VQGAN 的原理与应用。
GPT4V 的结构形式。
LLM Decoder 机制。
MagViT 架构。
LLM 基础知识补充建议。

三面

自我介绍。
多模态大模型选用的基座模型。
Transformer 架构的熟悉程度。
Python 实现 Self Attention 和 Transformer。

面试体验

字节一如既往地注重 Coding 能力，基本每一面包含两道算法题。一面面试官经验不足，体验一般；整体拿到 Offer 属于运气与实力并存。

商汤科技【Offer】

面试流程

一面

简单的自我介绍。
高分辨率图像的解决办法。
OCR 的实现细节，是否涉及 Grounding 或 Referring。

GPT4V 在位置检测上的明显问题。

如何解决位置信息编码。

新模态数据如何拼接。

新批次数据的训练策略。

Tree1 是否是 Tree2 的子树判断。

二面

AGI 发展中视觉的重要性。
工业场景下的物体检测（人、奇怪零件、机器），需要理解人的行为及 Context 关系。
自动驾驶感知端到决策端的感知需求侧重。
假新闻检测，图片真实性与 Caption 场景。
OCR 场景差异（街景、文档、网页截图）及其影响。
不规则文本的 OCR 解决方案。
多模态大模型中的 OCR 能力。
Qwen-VL 的文本检测形似性分析。
模型本身的三种核心能力。
LISA 模型借助 Decoder 做分割及 Prompt 实现。
RAG 外挂机制。
括号字符串合法性判断。

三面

Leader 面，主要聊业务与宏观方向。

面试体验

面试过程非常专业，算法技术在国内处于领先地位。但产品落地相对较少，薪资包诚意一般。

蚂蚁集团风控大模型【Offer】

面试流程

一面

自我介绍。
介绍 Focus-DETR 模型及其业务应用场景。

二面

目前负责的项目内容。
下游任务，特别是文档场景下的具体任务。
OCR 数据生成方法。
效果评估指标。
如何解决模型幻觉问题。

HR 面

具体工作内容回顾。
安全内容审核（ToB 方向）及竞对分析。
个人背景介绍。
上海海思工作经历及跳槽原因。
算法支撑能力说明。

MiniMax【挂】

面试流程

一面

空间感知能力是如何解决的？
不同 Token 长度是否有平衡方式？
编程题：Python 实现 MLP Regressor 完整训练过程（Forward, Backward, SGD 更新参数），验证梯度正确性，构建数据验证端到端收敛，不使用第三方自动求导库，推荐使用 Numpy。

面试体验

面试官对算法底层了解深入，代码考察要求高，不同于字节的风格。

零一万物【挂】

面试流程

一面

多模态模型的应用情况。
Document 任务的难度评估。
手写 Self Attention。

二面

自我介绍。
传统 OCR 模型与多模态大模型的区别。
带不带 OCR 模块对多模态文档智能的影响。
未来 OCR 模型是否会被大模型取代。
预训练模型的经验。
多模态未来的发展方向。
EVA 模型的涌现现象观察。
后续工作重点。
训练策略对比（Gemini 形式 vs LLM 形式）。

面试体验

开放性问题较多，反馈为业务积累不够。

美团【Offer】

面试流程

一面

文档大模型是独立模型还是整合进通用大模型？
不考虑通用场景的特定结构。
当前使用的模型规模。
模型结构及 Flamingo 或 BLIP2 的对比。
资源充足情况下的最优结构选择。
高分辨率文档的分辨率解决策略。
QA 对匮乏问题的解决。
OCR 性能低于多模态大模型时的优化。
BBox 感知能力差的问题解决。
算力充足下的数据获取与清洗策略。
Fuyu 结构的优化空间。

二面

OCR 文档大模型细节。
Instruction Tuning 的决定性因素及策略效果评估。
数据集多样性与复杂度的保证。
分层 Instruction Tuning。
数据数量与质量的影响。
不同类型数据对下游任务的影响。
自动化数据配比与指标引导优化。
合理的评估指标（如 OpenAI 压缩理论，Training Loss 代表优化目标）。
AGI 发展阶段（DeepMind 观点）。

三面 & 四面

多轮次深度问答，涉及模型效果提升全流程及强化 OCR 能力的具体路径。

其他公司情况

阿里控股：面试体验较差，面试官态度傲慢，未继续推进。
潞晨科技：一面手写 Self-Attention，NLP 背景面试官提问较难。
夸克：Offer。涉及项目、做题、高分辨率方案、重叠文本框、端到端 OCR、Focus-DETR、概率题等。HR 面询问职业规划与绩效。
腾讯 - 混元大模型：Offer。涉及图像细节提取、表格信息抽取、OCR 算法、MAE 优化等。三面纯聊天。
阿里巴巴国际部：中止。题目涉及旋转图像 Alpha 度，无后续回复。
网易实验室：Pass。涉及剪枝工作、Transformer 优势、推理加速与部署优化。
Momenta：Pass。涉及手写 NMS、DETR 原理、Query 含义等。自动驾驶方向较累。
蚂蚁 - CodeFuse：HR 面挂。涉及多页文档处理、UI 多模态引入、LeetCode 题目（字符串转数字、最大子数组和）。

面试技术热点分析

综合上述多家公司的面试经历，可以发现大模型岗位的技术考察呈现出以下显著特点：

基础架构深度：几乎所有公司都考察了 Transformer 的核心组件，如 Self Attention、LayerNorm、Position Embedding 等，部分要求手写实现。这要求候选人不仅会使用框架，更要理解底层数学原理。
多模态与 OCR 结合：文档理解、OCR 与大模型的结合是高频考点。重点在于如何处理高分辨率输入、长序列 Token 限制、以及 OCR 结果与大模型生成的融合（Grounding）。
工程落地能力：除了算法理论，面试官非常关注实际业务场景的解决方案，如数据清洗、幻觉抑制、推理加速、显存优化等。
Coding 能力：字节、MiniMax 等公司对 LeetCode 类算法题有明确要求，尤其是动态规划、数据结构操作及数值计算（如 Numpy 实现反向传播）。
前沿视野：对 GPT4V、LLaVA、Qwen-VL 等主流开源/闭源模型的结构、优缺点及最新论文（如 DeepMind AGI 阶段）的了解也是加分项。

通用准备建议

基于以上经验，针对大模型岗位的求职准备建议如下：

夯实基础：复习深度学习基础，特别是 Transformer 架构细节，能够推导公式并手写关键代码。
项目深挖：对自己的简历项目要做到烂熟于心，能够清晰阐述技术选型理由、遇到的难点及解决方案。准备好应对关于'为什么这么做'的连续追问。
刷题准备：虽然部分公司不强制，但字节等大厂仍看重算法功底。建议刷完经典题库（如 Labuladong 笔记），重点掌握数组、链表、树、动态规划等高频题型。
HR 面策略：
- 跳槽动机：避免直接抱怨前公司或领导，强调寻求更大发展空间或技术挑战。
- 薪资谈判：给出合理区间，保留弹性空间，表达合作意愿。
- 加班问题：如实回答，表明接受大厂节奏，但可询问团队具体情况。
资料整理：关注行业顶会论文，了解主流模型架构演进，保持对新技术的敏感度。

注：本文仅基于个人面试经历整理，仅供参考。具体面试情况可能因面试官、业务线及时间而异。

目录

免费图片AI生成工具免费生成了解详情

Magick API 一键接入全球大模型注册送1000万token查看
免费图片视频在线生成30秒，将你的创意变成现实开始设计
X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
100+免费在线小游戏爽一把

极客日志微信公众号二维码

微信扫一扫，关注极客日志

微信公众号「极客日志V2」，在微信中扫描左侧二维码关注。展示文案：极客日志V2 zeeklog

更多推荐文章

Python 自动化办公：使用 xlutils 修改 Excel
Claude Code 与 GitHub Copilot CLI 终端选型实测
Mac mini M4 部署 OpenClaw + Ollama 本地大模型对接飞书机器人
C语言快速排序算法详解及多种变式实现
网络安全攻防：黑客攻击简要流程
扣子工作流详解：逻辑结构与常见节点
MCPHost 实战：命令行驱动大模型与外部工具交互
HarmonyOS ArkUI 布局详解：相对布局与栅格布局
C++ 模板详解（进阶）
Flutter huggingface_client 鸿蒙化适配指南
Linux 下 GCC 编译入门与基础用法
Android 开发岗位历年高频面试题及参考答案
基于 Python 的抖音视频批量自动化工具实战指南
知网与维普 AIGC 检测差异对比及应对策略
JDK 25 与 JDK 17 开发效率及性能对比分析
Excel 自定义 Copilot 函数实现指南
基于 YOLOv5 的深度学习火焰检测识别系统
Python 全栈开发：FastAPI 高性能后端开发
字节跳动与腾讯 Android 岗位面试经验复盘与面经分享
Linux 常用指令详解与重定向实战

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
随机西班牙地址生成器
随机生成西班牙地址（支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选），支持数量快捷选择、显示全部与下载。在线工具，随机西班牙地址生成器在线工具，online
Gemini 图片去水印
基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印，支持批量处理与下载。在线工具，Gemini 图片去水印在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online