【MLLM】2025年大模型行业现状与方向调研(LLM/MLLM/AIGC,训练/推理/Infra,工业界/学术界)
【MLLM】2025年大模型行业现状与方向调研(LLM/MLLM/AIGC,训练/推理/Infra,工业界/学术界)
文章目录
1、2025 大模型行业三大赛道:LLM/MLLM/AIGC
背景:
- 2025 年的大模型行业已告别 “野蛮生长”,进入 “结构化竞争” 阶段。
核心特征十分明确:基座模型研发被巨头垄断,中小玩家转向应用落地与细分技术突破。
全球范围内,OpenAI、Google、Meta 凭借算力集群(如 OpenAI 的 GPT-4 系列训练集群)、海量合规数据与顶尖算法团队,占据 LLM 基座模型的绝对主导地位;
国内头部科技企业则通过 “自研基座 + 行业适配” 双线布局,形成区域竞争壁垒。
据行业测算,训练一个 SOTA 级 LLM 基座的成本已突破 10 亿美元,且需跨学科顶尖人才团队持续投入,普通公司或初创企业已完全不具备入局能力,“造模型” 成为少数巨头的专属游戏。 - 与此同时,行业创新重心正加速转移:
一方面,纯 LLM 领域从 “架构创新” 转向 “工程化落地”,核心价值体现在模型的行业适配与高效部署;
另一方面,多模态成为技术突破的核心战场,端侧部署、跨模态交互等场景的创新层出不穷,例如 2025 年推出的 MiniCPM-V 4.0 端侧多模态模型,仅 4.1B 参数量就实现了超越 GPT-4.1-mini 的图像理解能力,还支持 iPhone、iPad 等移动端离线部署,印证了多模态技术 “轻量化、实用化” 的发展趋势。
此外,AIGC 的商业化进程进一步提速,从 “概念验证” 走向 “规模化盈利”,成为连接技术与市场的核心桥梁。
(1)纯语言大模型(LLM):工程化深耕,分化明显
- 微调(Fine-tuning):
行业数据适配的核心手段,例如金融行业用监管合规数据微调基座模型,医疗行业用病例数据优化诊断问答能力。该方向技术流程日趋标准化,从数据标注、配比到训练调参,已形成成熟方法论,技术创新空间有限,更考验从业者对行业数据的理解与工程落地经验,逐渐成为 “高门槛熟练工种”。 - 检索增强生成(RAG):
LLM 应用的 “标配能力”,几乎所有企业级 LLM 产品都已集成。当前核心挑战集中在 - “工程优化”—— 如何提升 embedding 的行业适配性、优化检索引擎的响应速度、降低生成内容的幻觉率,但算法层面的突破性创新极少,更多是基于现有框架的细节打磨。 - Agent 开发:
2025 年持续热门的应用方向,本质是 “提示词工程 + 工具调用 + 基础规划逻辑” 的组合。例如办公 Agent 连接文档、邮件、日程工具实现自动化工作流,客服 Agent 整合知识库与工单系统提升响应效率,但核心依赖基座模型的理解与执行能力,开发者更多是 “场景设计者” 而非 “技术创造者”。 - 模型压缩、量化与部署:
刚需且稳定的赛道,随着企业对 LLM 部署成本的敏感度提升,轻量化技术需求激增。该方向更偏向 MLOps 与模型工程,从业者需掌握 TensorRT、ONNX 等部署工具,熟悉不同硬件(CPU/GPU/ 边缘设备)的适配逻辑,虽远离核心算法,但就业需求持续旺盛,待遇水平稳定。 - 从业价值来看,LLM 领域岗位 “下限高、天花板有限”:普通从业者可凭借工程能力获得不错待遇,但个人价值高度依赖所使用的基座模型,难以形成独立技术壁垒;仅少数头部企业核心团队的研究者,能参与预训练算法、模型结构的底层创新,这类岗位门槛极高,需具备顶会论文发表能力与多模态跨学科知识储备。
(2)生成式模型(AIGC):商业化落地为王,方差巨大
- AIGC 在 2025 年已形成清晰的 “业务导向” 定位 —— 不再是泛化的技术概念,而是聚焦具体场景的产品化落地。其核心特征是 “技术封装化、岗位细分化”:
- 典型应用场景已从早期的 “文生图、文生视频” 拓展到垂直领域,例如营销行业的 AI 广告生成平台 (支持文案、视频、海报一体化生成) 、教育行业的 AI 课件制作工具、编程领域的智能代码生成与调试助手等。
- 分工上,企业通常仅保留小团队负责模型微调与优化,大部分岗位为 “应用算法工程师” 或 “后端工程师”,核心工作是将开源或第三方模型封装为 API,嵌入业务流程,解决数据清洗、接口适配、用户体验优化等实际问题。
- 该赛道的核心优势是 “离市场近、成果可见”:成功商业化的产品(如头部 AI 设计工具)核心成员,可获得高额回报;但短板也十分突出 —— 对于志在核心算法的从业者,工作内容更偏向业务逻辑而非技术创新,大量时间耗费在需求对接、数据处理与 API 调试上,技术深度可能不足。待遇方面,行业分化严重:头部商业化企业核心岗较大厂同级岗位高出 20%-50%,而尚未找到盈利模式的初创公司,待遇可能低于大厂基础工程岗。
(3)多模态大模型(MLLM):蛮荒之地的机遇,技术壁垒决定竞争力
- 2025 年的 MLLM 已成为大模型行业的 “创新引擎”,被视为未来 5 年技术突破的核心方向,其核心魅力在于 “未被解决的根本性问题” 与 “广阔的应用前景”
- 技术价值:从 “单一模态” 到 “真实世界交互”:人类认知世界的本质是多模态融合(视觉、听觉、语言等),而纯文本 LLM 无法理解物理世界的空间关系、视觉细节与声音信息。MLLM 的核心使命是解决 “跨模态对齐” 问题 —— 例如文生视频的时间一致性、3D 生成的物理规律适配、图像 - 文字 - 语音的跨模态理解等,这些都是尚未被完全攻克的技术难题,每个方向都可能诞生颠覆性产品。2025 年端侧多模态模型的爆发(如 MiniCPM-V 4.0),更让 “移动端实时多模态交互” 成为新热点,进一步拓宽了应用场景。
- 技术壁垒:复合型知识栈筛选优质人才:MLLM 对从业者的要求远超纯 LLM—— 不仅要精通 NLP 与 CV 的核心算法,还需掌握图形学(3D 生成场景)、语音处理(音频模态场景)、视频压缩(长视频生成场景)等跨学科知识。例如要理解 Diffusion Model 的数学原理、NeRF 神经辐射场的底层逻辑,需投入大量时间深耕,无法通过短期学习快速上手。这种高壁垒形成了天然的人才筛选机制,也让从业者具备更强的抗行业波动能力。
- 从业案例与价值:某 CV 背景从业者在行业扎堆转向 LLM 时,专注 3D 生成与多模态融合技术,深耕 DiT 架构、视频压缩网络等底层技术。2025 年 Sora 引爆视频生成赛道后,各大厂纷纷布局多模态内容生成,该从业者因扎实的技术积累,获得多家头部企业高薪 offer,package 较同级 LLM 应用岗高出 30% 以上。这一案例印证了 MLLM 领域的核心逻辑:技术壁垒越高,职业竞争力越强,天花板越高。
参考资料:1
2、岗位分类,发展路径
2.1 职业方向对比(训练,推理,Infra)
| 对比维度 | 训练(算法岗、科研类) | 推理(应用岗、科研&工程类) | AI-Infra(工程类) |
|---|---|---|---|
| 核心定位 | 生产工具(模型创新与优化) | 使用工具(业务场景落地) | 支撑工具(技术基建搭建) |
| 核心职责 | 1. 模型结构 / 预训练算法创新(如多模态跨模态表征);2. 模型微调(SFT)、强化学习(RL)优化;3. 解决技术根本性问题(如长视频生成一致性);4. 科研攻关与论文 / 专利产出 | 1. 模型能力封装(API/SDK 开发);>2. 业务流程嵌入与需求适配(如 AI 广告生成平台搭建); 提示词工程、用户体验优化;4. 数据清洗、接口调试与异常监控 | 1. 算力平台搭建(分布式训练集群、云服务部署);2. 训练 / 推理框架优化(如 PyTorch、DeepSpeed、vLLM);3. 资源调度、模型部署运维(容器化、硬件适配);. GPU 算子开发(CUDA/Triton)与性能优化 |
| 价值导向 | 技术突破与模型性能提升 | 业务指标达成与商业化落地 | 训练 / 推理效率提升与稳定性保障 |
| 核心技能 | 1. 扎实数学基础(线性代数、概率论);2. 深度学习框架(TensorFlow/PyTorch);3. 模型原理精通(Transformer、Diffusion 等);>4. 顶会论文读写与科研创新能力 | 1. 开发语言(Python/Java)与 Web 框架(FastAPI/Flask);2. 业务需求拆解与方案设计;3. 数据处理与 API 调用;4. 行业知识与场景适配能力 | 1. 计算机基础(操作系统、网络、数据结构);>2. 分布式系统与容器化技术(K8s/Docker);3. 框架开发(C++/CUDA)与算力调度; 硬件适配(GPU/CPU/ 边缘设备)与性能优化 |
| 典型产出 | 优化后的模型、学术论文、技术专利 | 上线功能、业务产品(如 AI 客服系统)、转化率提升等指标 | 算力平台、优化后的框架、部署运维体系 |
| 适配人群 | 热爱技术研发,追求技术深度,具备扎实算法 / 数学基础 | 擅长需求拆解,注重落地效果,适应业务导向 | 擅长底层技术搭建,关注系统效率,具备工程化思维 |
| 准入难度 | 高(研究岗★★★★★,SFT/RL 岗★★★★) | 中(★★☆-★★★☆) | 中高(★★★-★★★★) |
| 待遇水平 | 头部计划 80-150+,普通算法 30-80 | 初级15 -30 ,资深 40 - 80,头部产品不算 | 初级 20- 40 ,资深 60-120(如芯片 / 算力厂商核心岗) |
| 行业需求 | 集中于头部大厂、科研型初创企业 | 全行业需求旺盛(大厂、创业公司均有布局) | 聚焦巨头、算力厂商、规模化 AI 企业 |
| 核心壁垒 | 技术创新能力、跨模态知识储备、顶会 / 论文背书 | 行业经验、场景落地能力、业务理解深度 | 底层工程能力、框架开发经验、硬件适配知识 |
| 发展天花板 | 高(技术突破可引领行业),但核心岗竞争激烈 | 中高(可成长为业务负责人 / 产品总监) | 高(可成长为基建架构师 / 技术专家),需求稳定 |
2.2 职业方向细分(训练,推理,Infra)
科学研究(训练):基座研发->预训练->后训练RL->后训练SFT
- 研究岗(Research):
核心职能是科研攻关与技术转化,需在企业内部开展前沿研究(如多模态跨模态表征、预训练算法创新),并发表顶会论文或转化为模型训练方案。适合意向核心算法的从业者,实习推荐选择大厂研究院或有实力的初创企业(如专注多模态的独角兽公司),准入难度★★★★★,(头部计划)。 - 预训练岗(Pretrain):
负责 LLM/MLLM 的基座预训练,需操作多卡集群,处理海量数据与集群运维。仅头部企业布局,招聘对象为顶尖人才(多为名校博士或有顶会论文者),且形成行业圈子,准入难度★★★★★ (头部计划);其中多模态预训练因范式尚未定型,机会略多于纯 LLM 预训练。 - 后训练岗(RL):
通过强化学习优化模型性能,是 2025 年热门方向,尤其多模态 RL 领域缺乏 “王炸级” 研究成果,创新空间大。准入难度★★★★,适合具备强化学习基础与跨模态知识的从业者。 - 后训练岗(SFT):
聚焦通用基座的有监督微调,核心工作包括数据配比、模型蒸馏、CoT 思维链设计等,侧重强化模型特定能力(如行业合规性、专业问答能力)。准入难度★★★,是算法岗的 “入门选择”。
应用研究(推理):Agent->搜广推->提示词工程
- 应用岗(Agent):
围绕 LLM/MLLM 构建智能体,核心是工具调用与场景数据构建,需理解业务场景与模型能力的匹配逻辑。2025 年需求旺盛,准入难度★★★,适合擅长场景落地的从业者。 - 应用岗(跨领域结合):
融合大模型与搜索、推荐、广告等传统算法领域,例如用 LLM 优化推荐系统的召回逻辑、提升广告文案生成效率。准入难度★★★☆,适合有传统算法经验且想转型大模型的从业者。 - 其他业务岗:
针对特定业务场景开展模型后训练或提示词工程,例如金融大模型的合规性微调、医疗大模型的病例理解优化。岗位需求量最大,准入难度★★☆,适合追求稳定就业的从业者。 - 业务平台搭建(Web前后端开发)
负责大模型应用的工程化落地,核心工作包括前端交互界面开发(如 AI 生成工具的操作面板)、后端服务搭建(如 API 网关、业务逻辑开发)、数据库设计与维护,支撑应用岗的场景落地。准入难度★★★,适合有工程开发经验的从业者。
基础设施(AI-Infra)
| 细分岗位 | 核心定位 | 核心职责 | 核心技能要求 | 准入难度 | 典型产出 |
|---|---|---|---|---|---|
| IaaS 运维与开发 | 硬件资源整合与调度 | 1. 服务器(GPU/CPU)组装、集群组网与运维管理;2. 分布式存储系统搭建(如 Ceph),满足海量数据存储 / 读取;>3. 网络优化(低延迟、高带宽),保障跨节点通信; 硬件资源监控与故障排查。 | 1. 计算机网络、操作系统(Linux);2. 分布式存储技术; GPU 硬件知识(NVIDIA A100/H100 适配);>4. 运维工具(Prometheus/Grafana)。 | ★★★ | 可调度的算力集群、存储集群 |
| PaaS 算子开发 | 计算效率优化核心 | 1. 底层算子开发(CUDA/Triton),优化模型训练 / 推理的核心计算单元;2. 算子融合、精度优化(FP16/INT8 量化);. 适配不同硬件(GPU/ASIC)的算子移植。 | 1. C/C++、CUDA 编程;. 深度学习计算原理;3. 性能分析工具(Nsight);. 并行计算知识。 | ★★★★ | 高性能算子库、量化工具 |
| PaaS 训练与推理框架开发 | 上层工具链支撑 | 1. 训练框架优化(如 PyTorch/DeepSpeed 二次开发),提升分布式训练效率;. 推理框架开发 / 优化(如 vLLM/TensorRT-LLM),解决高并发、低延迟问题;>3. 框架与硬件的适配(如支持端侧 NPU)。 | 1. Python/C++;. 深度学习框架内核理解; 分布式系统设计;4. 模型压缩、并行训练原理。 | ★★★★ | 优化后的训练 / 推理框架 |
| SaaS 推理服务开发 | 应用层部署与服务化 | 1. 模型部署工程化(容器化、Serverless 部署);2. 推理服务集群搭建(负载均衡、弹性扩容);3. 服务监控(QPS、延迟)与熔断降级;4. 多模型统一调度与资源隔离。 | 1. Docker/K8s 容器化技术;. 微服务架构(Spring Cloud/Go Micro); 推理框架(vLLM/Text Generation Inference);. 云服务(AWS / 阿里云)使用经验。 | ★★★☆ | 高可用的推理服务 API、调度平台 |

参考资料:1
3、后训练RL - 多模态方向
3.1 工业界(多模态基础、SFT、RL、RAG、分布式、场景)
(1)多模态基础与优化
- 什么是多模态大模型?核心挑战是什么?
答案:融合文本、图像、音频等多种模态信息的模型,核心挑战是模态间异构性对齐与跨模态语义理解的一致性。 - 多模态模型的常见架构(如Flamingo、BLIP-2)核心设计思路是什么?
答案:通过桥接模块(如Q-Former) 将图像特征映射到语言模型的语义空间,实现模态对齐。 - 多模态预训练的常见任务有哪些?
答案:图像文本对比学习(CLIP)、图文匹配、图像描述生成、跨模态掩码预测。 - 如何增强多模态模型的识别准确度(比如识别医疗手写表格的特征与具体值)?
答案:1. 用领域内高质量标注数据(医疗手写表格+结构化标签)做继续预训练/SFT;2. 加入空间注意力增强(聚焦表格单元格位置);3. 结合OCR模型先提取文本,再和图像特征融合;4. 用自监督学习做表格结构预训练(如行/列对齐任务)。 - 手写多头注意力的计算步骤?
答案:1. 输入嵌入分别线性变换得到Q、K、V矩阵;2. 对Q、K做缩放点积注意力计算相似度;3. 用softmax得到注意力权重;4. 权重与V相乘得到单头注意力输出;5. 拼接所有头的输出,再线性变换得到最终结果。 - 为什么计算注意力要除以维度的平方根( d k \sqrt{d_k} dk)?
答案:避免高维度下Q·K的内积结果过大,导致softmax输出趋近于one-hot,梯度消失,保证注意力分布更均匀。 - decoder-only结构(如LLaMA)从输入prompt到输出token的完整过程?
答案:1. 输入prompt做词嵌入+位置编码;2. 经过多层decoder block(每层含掩码多头注意力+MLP),掩码保证当前token只关注前文;3. 顶层输出经线性层映射到词表维度;4. softmax得到下一个token的概率分布;5. 采样生成token并拼接回输入,重复步骤2-4直至生成结束符。 - 有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息?
答案:1. 增加维度映射层(如线性层将 d d d维→ d 1 × d 2 d_1\times d_2 d1×d2维,再reshape为 [ b a t c h , s e q l e n , d 1 , d 2 ] [batch, seq_len, d_1, d_2] [batch,seqlen,d1,d2]);2. 位置编码同步扩展:将原2维位置编码通过同样线性层映射后reshape,或在新增维度上添加位置信息(如深度维度位置编码);3. 用卷积层(如1×1卷积)升维,利用卷积的参数共享特性保留原有语义和位置特征。 - 跨模态对齐如何做?你都了解哪些对齐方式?
答案:1. 对比学习对齐(如CLIP,最大化同样本图文特征相似度,最小化异样本);2. 生成式对齐(如BLIP,图像生成文本/文本生成图像,强制模态间语义一致);3. 桥接模块对齐(如Q-Former,用可学习模块将图像特征映射到语言模型空间);4. 掩码重建对齐(如多模态BERT,掩码图文片段让模型预测,学习跨模态关联)。 - ROPE(旋转位置编码)给我介绍一下?
答案:一种绝对位置编码,通过旋转矩阵将位置信息融入query和key的向量中,公式为 q r o t = q ⊙ cos ( m θ ) + q ⊥ ⊙ sin ( m θ ) q_{rot}=q\odot\cos(m\theta)+q_{\perp}\odot\sin(m\theta) qrot=q⊙cos(mθ)+q⊥⊙sin(mθ)( m m m为位置, θ \theta θ为预设频率);优势是支持外推(长文本位置可直接计算),且能捕捉相对位置关系。 - 说一下P-tuning的原理?
答案:一种软提示调优方法,冻结预训练模型权重,只训练少量可学习的软提示嵌入(virtual tokens);将软提示插入输入序列,通过调整软提示来适配下游任务;解决了硬提示人工设计成本高、全参数微调显存开销大的问题,适合小样本场景。
(2)后训练(SFT/继续预训练)
- 什么是指令微调(SFT)?和预训练的区别是什么?
答案:用指令-响应数据微调预训练模型,让模型遵循人类指令;预训练学通用知识,SFT学任务适配能力。 - 多模态SFT的数据有什么特点?如何构建高质量多模态指令数据集?
答案:需包含多模态输入(图+文指令)和对应响应;构建需保证模态信息完整性、指令多样性、响应准确性,并做去噪清洗。 - 后训练中过拟合的原因和解决方法?
答案:原因是数据量小、模型容量大;方法是增大数据量、加入正则化(dropout/权重衰减)、使用早停。 - 多模态模型继续预训练的场景和目的?
答案:针对特定领域(如医疗影像+报告),目的是让模型学习领域内的跨模态专属知识,提升下游任务性能。 - Lora为什么在工业界这么吃香?原因是什么?
答案:1. 显存开销低:只训练注意力层的低秩矩阵,冻结主模型权重,训练参数量仅为全量微调的千分之一;2. 部署灵活:多个任务的Lora权重可插拔,实现“一基多模”;3. 训练速度快:无需计算主模型梯度,适配消费级GPU;4. 效果好:低秩分解能捕捉任务关键特征,性能接近全量微调。 - 训练大模型的数据如何弄的?
答案:1. 公开数据集(如CC3M、LAION)做通用预训练;2. 领域数据爬取/合作获取(如医疗数据需合规授权);3. 数据清洗(去重、去噪、过滤低质量内容);4. 数据增强(多模态数据如图像裁剪/文本同义改写);5. 指令数据构建(人工标注、AI生成+过滤)。 - 如何关注训练过程中的指标?训练步数如何确定?
答案:监控指标:训练损失(是否下降收敛)、验证损失(判断过拟合)、下游任务指标(如多模态分类准确率、生成BLEU分数)、显存/算力利用率;确定步数:1. 用早停法(验证损失连续多轮不下降则停止);2. 参考经验值(如SFT通常训练1-3个epoch);3. 小批量测试不同步数的效果,选择最优值。
(3)强化学习与模型对齐(RLHF/RLAIF/DPO)
RLHF:基于人类标注偏好训练奖励模型,再用 PPO 算法微调模型,实现模型与人类偏好对齐的强化学习方法。
RLAIF:用 AI 标注替代人类标注生成偏好数据的对齐方法,降低 RLHF 的标注成本与规模限制。
DPO:无需训练奖励模型,直接用偏好排序数据端到端优化策略的对齐算法,流程更简洁、训练更高效。
- RLHF的三大核心步骤是什么?详细流程讲一下?
答案:步骤1:有监督微调(SFT),用高质量指令-响应数据微调预训练模型,得到遵循指令的初始模型;步骤2:训练奖励模型(RM),收集模型的多个输出,人工标注偏好排序,训练RM对输出打分,衡量与人类偏好的对齐度;步骤3:强化学习微调(PPO),以RM的打分作为奖励信号,用PPO算法微调SFT模型,让模型输出更符合人类偏好;额外步骤:加入KL散度约束,避免模型偏离SFT模型太远导致性能崩塌。 - RLHF的三个流程中你觉得哪个应该是最重要的?为什么?
答案:训练奖励模型(RM) 最重要;因为RM是人类偏好的“代言人”,RM的打分质量直接决定最终模型的对齐效果;若RM标注不一致或打分不准,后续PPO训练会朝着错误的方向优化,甚至出现奖励崩塌。 - 奖励模型(RM)的作用是什么?训练时的关键注意事项?如何训练?训练到什么程度可以?
答案:作用:对模型输出打分,衡量和人类偏好的对齐程度;训练注意事项:1. 标注数据需一致性高(不同标注者偏好统一);2. 构建多样化正负样本(包含不同错误类型的输出);3. 避免奖励崩塌(防止模型利用RM漏洞输出高分无意义内容);训练方法:收集模型输出的排序样本,用排序损失(Pairwise Ranking Loss) 训练,让RM给更优输出打更高分;训练停止标准:验证集上的排序准确率稳定(如>90%),且在小批量人工评估中打分与人类偏好一致。 - Reward model不准确怎么办?
答案:1. 重新标注高质量数据,增加难例样本(如相似输出的精细排序);2. 迭代优化RM,用当前模型生成的输出扩充训练集,再重新训练;3. 加入正则化(如权重衰减、dropout),防止RM过拟合标注偏差;4. 多RM融合,训练多个不同初始化的RM,综合打分;5. 引入辅助损失(如KL散度约束RM打分范围)。 - 为啥RLHF中要用PPO?和其他RL算法的区别?
答案:PPO的核心优势是信任域(Trust Region) 限制,通过裁剪策略梯度,避免模型参数更新幅度过大,防止训练崩溃;与其他RL算法区别:1. 相比TRPO,PPO实现更简单,计算开销更低;2. 相比DQN,PPO适合连续动作空间(模型输出是概率分布);3. 相比A2C,PPO支持离线数据训练,更稳定。 - PPO的原理?
答案:一种近端策略优化算法,核心是最大化“裁剪后的优势函数”;步骤:1. 用当前策略收集数据,计算动作的优势值(衡量动作好坏);2. 计算新旧策略的概率比值,裁剪该比值到[1-ε, 1+ε]区间,限制策略更新幅度;3. 交替执行“采样数据→更新策略”,保证策略在信任域内优化,兼顾训练稳定性和效率。 - PPO是倾向于将模型往什么方向训练?
答案:倾向于在人类偏好的方向上渐进优化,同时通过KL散度约束,保证模型不会偏离有监督微调的初始模型太远,平衡“对齐人类偏好”和“保留模型原有能力”。 - 在用vLLM做强化学习时,你是根据什么指标来查看训练的进度的?
答案:1. 奖励分数(RM的打分是否持续上升,代表对齐度提升);2. KL散度(与SFT模型的输出分布差异,需控制在合理范围,避免漂移);3. 策略梯度的方差(方差小说明训练稳定);4. 下游任务指标(如多模态生成的相关性、准确性);5. 推理速度/吞吐率(vLLM部署下的性能,保证优化后不降低部署效率)。 - 什么是RLAIF?解决了RLHF的什么问题?
答案:用AI标注替代人类标注的强化学习对齐方法;解决了RLHF中人类标注成本高、规模小、一致性差的问题。 - 多模态RLHF的难点是什么?
答案:多模态输出的奖励难以量化、跨模态反馈信号的稀疏性、模态间对齐和偏好对齐的双重目标。 - 什么是对齐税(Alignment Tax)?如何缓解?
答案:模型对齐后任务性能下降的现象;缓解方法是在RL阶段加入预训练损失(KL散度约束) ,平衡对齐和性能。 - DPO了解吗?DPO和PPO有什么区别?你更喜欢使用哪种?
答案:DPO是直接偏好优化,一种无需训练奖励模型的对齐算法,直接用偏好排序数据优化策略;区别:1. 流程上,DPO省去RM训练步骤,端到端优化,PPO需要先训练RM;2. 稳定性上,DPO无需调整KL系数等超参数,鲁棒性更强,PPO对超参数敏感;3. 计算开销上,DPO训练速度更快,PPO需要交替采样和更新;偏好:DPO,因为流程更简洁、超参数更少、训练效率更高,适合快速迭代;但PPO灵活性更强,适合需要精细控制奖励信号的复杂场景。 - DPO的公式给我写一下或者口述一下?
答案:核心是最小化负对数似然损失,目标函数为: L D P O ( π θ ) = − E ( x , y w , y l ) ∼ D [ log σ ( β ( log π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − log π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ) ] L_{DPO}(\pi_{\theta}) = -\mathbb{E}_{(x,y_w,y_l)\sim D}[\log\sigma(\beta(\log\frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)}))] LDPO(πθ)=−E(x,yw,yl)∼D[logσ(β(logπref(yw∣x)πθ(yw∣x)−logπref(yl∣x)πθ(yl∣x)))];其中 x x x是输入, y w y_w yw是偏好输出, y l y_l yl是次优输出, π r e f \pi_{ref} πref是参考模型(如SFT模型), β \beta β是温度系数,控制策略更新幅度。 - DPO跟对比学习有哪些相同点和不同点?
答案:相同点:1. 都依赖成对样本(对比学习是正负样本对,DPO是偏好排序对);2. 都通过相对比较优化模型,而非绝对标签;不同点:1. 目标不同,对比学习是最大化同类相似度,DPO是最大化偏好输出的概率;2. 应用场景不同,对比学习多用于预训练阶段的模态对齐,DPO多用于对齐阶段的偏好优化;3. 模型输入不同,对比学习输入多模态特征,DPO输入文本/多模态指令和输出序列。 - Reward有多个目标可以怎么做?
答案:1. 多奖励模型融合,为每个目标训练独立RM,再加权求和得到总奖励;2. 分层奖励设计,主奖励对应核心目标(如人类偏好),辅助奖励对应子目标(如安全性、事实性);3. 多目标优化算法,用帕累托最优或加权损失,同时优化多个奖励目标;4. 在RM训练中加入多目标标注,让单个RM学习多个目标的综合打分。 - Reward model和训练的LLM模型用同一个基座模型可能有什么作用?
答案:1. 降低训练开销,共享基座模型的权重,无需重新训练特征提取层;2. 提升特征一致性,RM和LLM用相同的语义空间,打分更准确,避免模态/语义错位;3. 支持参数共享,可采用共享编码器+不同输出头的结构,提升训练效率;4. 便于迁移优化,RM的训练经验可迁移到LLM微调,加速对齐过程。 - 如何提升RLHF的效率?你认为关键在哪里?
答案:提升方法:1. 用Lora/QLoRA降低训练参数量;2. 采用离线RL,复用历史数据减少采样次数;3. 优化RM训练(如用AI标注替代人工标注);4. 分布式训练(模型并行/数据并行);关键在于提升数据利用效率和降低计算开销,因为RLHF的瓶颈是数据标注成本和PPO训练的高算力消耗。
(4)RAG与模型幻觉
- 讲一讲你对RAG的理解?
答案:检索增强生成(RAG)是一种提升LLM事实性的技术,核心流程是检索→增强→生成:先从外部知识库检索与query相关的文档片段,再将文档和query拼接成prompt输入模型,最后模型基于检索到的事实生成回答;分为检索式RAG(仅检索外部知识)和增强式RAG(结合模型自身知识)。 - 模型的幻觉问题?以及RAG的好处?如何利用RAG去缓解模型幻觉?
答案:幻觉是模型生成看似合理但不符合事实的内容,原因是预训练知识过时/不完整、生成时过度推理;RAG的好处:1. 提升回答事实准确性;2. 降低幻觉率;3. 无需重新训练模型即可更新知识;缓解幻觉的方法:1. 检索权威、最新的知识库,为生成提供事实依据;2. 用检索结果作为唯一参考,限制模型依赖自身记忆;3. 加入溯源机制,让模型标注回答的来源;4. 优化检索策略(如多路检索、重排序),提升检索准确性。
(5)工程部署与分布式训练
- 多模态大模型训练时显存不足的解决方法?
答案:使用混合精度训练、梯度累积、模型并行/张量并行、激活重计算(activation checkpointing)、量化训练(如4bit/8bit)。 - vLLM部署多模态模型的核心优化点是什么?
答案:基于PagedAttention的高效注意力机制,将KV缓存划分为固定大小的page,实现动态分配,提升吞吐率,降低推理延迟。 - LLM的分布式框架了解过吗?展开讲一下它们的优缺点?1
答案:主流框架分为三类:- 数据并行(DP/DDP):代表框架PyTorch DDP;优点:实现简单,适合数据量大的场景;缺点:模型不能超过单卡显存,通信开销随卡数增加而增大。
- 模型并行:代表框架Megatron-LM、DeepSpeed;分为张量并行(TP)和流水线并行(PP);TP优点:将单一层的参数拆分到多卡,适合大模型;缺点:卡间通信频繁;PP优点:将模型层拆分到多卡,适合超深模型;缺点:存在流水线气泡,算力利用率低。
- 混合并行:代表框架DeepSpeed、Colossal-AI;优点:结合数据并行、张量并行、流水线并行,支持万亿参数模型训练;缺点:配置复杂,对硬件拓扑要求高。
- llama factory代码看过吗?
答案:看过,Llama Factory是一个轻量级大模型微调框架,支持LLaMA、Qwen等模型的SFT、RLHF、DPO训练;特点是集成了Lora/QLoRA、多模态适配、分布式训练等功能,配置简单,开箱即用;核心模块包括数据处理、模型加载、训练策略(PPO/DPO)、评估工具,适合快速验证算法思路。 - Ray 在 LLM 分布式中的角色:
答案:Ray 不是单纯的 “训练框架”,而是分布式计算引擎,核心优势是 “资源调度 + 跨框架适配”:比如用 Ray Train 封装 PyTorch 的 DDP/FSDP,实现多节点 LLM 训练的自动资源分配、故障恢复;还可结合 Ray Serve 做 LLM 推理部署,实现训练 - 部署一体化。相比原生 PyTorch,Ray 更适合大规模集群(数十 / 数百卡) 的 LLM 训练,能降低集群管理成本。 - FSDP(完全分片数据并行)的核心价值:
答案:Accelerate/Trainer/Lightning/Ray 均支持 FSDP,这是 LLM 训练的关键 :FSDP 将模型参数、梯度、优化器状态全部分片到多卡,相比传统 DDP(单卡存完整模型),能训练更大模型(如 70B+) ,是中小框架适配大模型的核心方案;而 TP(张量并行)通常需依赖 Megatron-LM/DeepSpeed,原生 PyTorch/Ray 需手动实现。
| 框架/工具 | 核心定位 | 分布式能力(LLM场景) | 优点 | 缺点 | 典型使用场景 |
|---|---|---|---|---|---|
| 原生PyTorch | 基础张量计算/分布式底层 | 支持DDP(数据并行)、TP(张量并行,需手动实现)、PP(流水线并行,需手动写逻辑) | 灵活性最高,可定制所有细节 | 分布式代码开发成本高,需手动处理通信/同步 | 自研大模型框架、极致定制化训练需求 |
| Hugging Face Accelerate | PyTorch分布式训练封装层 | 一键适配DDP/FSDP(完全分片数据并行),支持多卡/多节点,封装了混合精度、梯度累积等 | 轻量化,无侵入式适配现有PyTorch代码 | 仅封装基础分布式逻辑,不支持复杂模型并行 | 中小规模LLM(10B以内)的SFT/预训练 |
| Hugging Face Trainer | 端到端训练封装 | 基于Accelerate实现分布式,支持DDP/FSDP,内置训练流程(数据加载→训练→评估) | 开箱即用,无需写训练循环 | 灵活性低,复杂分布式策略(如TP)难定制 | 快速验证算法、中小模型微调 |
| PyTorch Lightning | 训练流程工程化封装 | 封装DDP/FSDP,支持多节点训练,提供统一的训练循环/日志管理 | 代码模块化,易维护,适配多硬件 | 模型并行(TP/PP)需依赖第三方扩展 | 企业级LLM训练,注重工程化/可维护性 |
| Ray(Ray Train) | 分布式计算框架 | 支持DDP/FSDP,可对接PyTorch/TensorFlow,提供资源调度、容错、弹性扩缩容 | 适配大规模集群,支持异构硬件(GPU/CPU) | 学习成本略高,LLM专用优化少于DeepSpeed | 超大规模LLM分布式训练/推理、集群调度 |
(6)项目场景题
- 讲一个你最熟悉的模型(DeepSeek-R1)
答案:DeepSeek-R1是深度求索推出的多模态对话模型,基于LLaMA架构扩展多模态能力;核心设计:1. 用Q-Former作为图像编码器,将图像特征映射到语言模型空间;2. 采用多阶段训练(预训练→SFT→RLHF),提升跨模态理解和对话能力;优势:在图文问答、视觉推理任务上表现优异,且支持高效部署;应用场景:智能客服、视觉问答、教育辅助等。 - 如果让你做一个多模态对话模型的后训练+RLHF,你的流程是什么?
答案:1. 构建多模态对话指令数据集(图+文指令+响应);2. 用Lora做SFT,得到初始多模态对话模型;3. 收集模型输出的多模态回答,人工标注偏好排序;4. 训练多模态奖励模型(输入图文+回答,输出打分);5. 用PPO微调SFT模型,加入KL散度约束;6. 从主观(人工打分)和客观(跨模态任务指标)评估模型;7. 迭代优化数据集和训练超参数。
3.2 学术界
(1)会议:CCFA - 人工智能 - 共7本
NLP:ACL
CV: CVPR/ICCV
综合: IJCAI/AAAI/NeurIPS
| 会议简称 | 英文全名 | 中文译名 | 主要领域定位(侧重接受的文章) | 2026届截稿时间 | 录用率参考(近年) |
|---|---|---|---|---|---|
| ACL | Annual Meeting of the Association for Computational Linguistics | 计算语言学协会年会 | 自然语言处理(NLP)核心领域,包括语言模型、文本生成、机器翻译、对话系统、多模态语言理解、计算语言学理论与应用,是NLP领域最权威顶会 | 2026-01-06 19:59:59 | 21.4%(2024:943/4407) |
| IJCAI | International Joint Conference on Artificial Intelligence | 国际人工智能联合会议 | 人工智能综合领域,覆盖机器学习、计算机视觉、NLP、知识表示与推理、智能规划、多智能体系统、智能机器人等核心方向,注重跨领域融合研究 | 2026-01-20 19:59:59 | 14.0%(2024:791/5651) |
| ICML | International Conference on Machine Learning | 国际机器学习大会 | 机器学习全领域,包括监督/无监督/强化学习、深度学习、概率模型、统计学习、优化算法、机器学习理论与应用,与NeurIPS并称ML领域两大标杆顶会 | 2026-01-29 19:59:59 | 27.5%(2024:2609/9473) |
| AAAI | AAAI Conference on Artificial Intelligence | 美国人工智能协会年会 | 人工智能综合领域,涵盖机器学习、计算机视觉、NLP、知识图谱、AI伦理、规划决策、多智能体系统,兼顾理论创新与实际应用落地 | 2025-08-02 19:59:59(已截稿) | 23.7%(2024:2342/9862) |
| CVPR | IEEE/CVF Conference on Computer Vision and Pattern Recognition | 计算机视觉与模式识别会议 | 计算机视觉核心领域,包括图像识别、目标检测、语义分割、视频理解、三维视觉、多模态视觉学习、自动驾驶感知、视觉生成模型等 | 2025-11-14 19:59:00(已截稿) | 22.1%(2025:2878/13008) |
| ICCV | IEEE International Conference on Computer Vision | 国际计算机视觉大会 | 计算机视觉前沿与基础研究,包括底层视觉与感知、运动与跟踪、立体视觉、图像与视频生成、视觉推理、机器人视觉、多模态视觉理解等,每两年举办一次 | 2025-03-08 17:59:59(已截稿) | 26.2%(2023:2160/8260) |
| NeurIPS | Conference on Neural Information Processing Systems | 神经信息处理系统大会 | 人工智能与机器学习顶尖会议,覆盖深度学习、强化学习、神经网络、多模态表示学习、计算神经科学、AI安全与可解释性、大模型高效训练等前沿方向 | 2025-05-16 19:59:59(已截稿) | 25.8%(2024:4037/15671) |

(2)期刊:CCFA-人工智能-共4本
| 序号 | 刊物简称 | 英文全称 | 中文译名 | 出版社 | Link | 文章侧重 | 投稿周期 |
|---|---|---|---|---|---|---|---|
| 1 | AI | Artificial Intelligence | 《人工智能》 | Elsevier | 1 | 人工智能基础理论、自动推理、认知建模、伦理AI;强调理论创新与有效性论证,优先接收对领域有重大进展的研究,纯应用类论文需突出方法创新性 | 约9个月(含审稿与修改) |
| 2 | TPAMI | IEEE Transactions on Pattern Analysis and Machine Intelligence | 《IEEE模式分析与机器智能汇刊》 | IEEE Computer Society | 1 | 计算机视觉、模式识别、机器学习、医学影像分析、生成模型等;侧重原创性与工程落地价值,是CV/PR领域的权威标杆 | 7–9个月(含多轮审稿) |
| 3 | IJCV | International Journal of Computer Vision | 《国际计算机视觉杂志》 | Springer | 1 | 计算机视觉基础理论与前沿方法,如三维重建、目标检测、视觉理解、多模态融合;接收高质量原创研究与少量综述 | 6–12个月(审稿严格,周期波动大) |
| 4 | JMLR | Journal of Machine Learning Research | 《机器学习研究杂志》 | Microtome Publishing | 1 | 机器学习全领域,含理论、算法、优化、概率模型、强化学习、公平性与可解释性;鼓励开源与可复现,对理论深度与创新性要求高 | 6–8个月(含开放评审) |
期刊投稿 - 最大出版社
- Elsevier Editorial System
总部在荷兰,全球最大出版社,发表全球约16%的科研论文,旗下有《柳叶刀》、《细胞》等著名期刊,其 ScienceDirect 和 Scopus 数据库是学术界重要资源。
爱思唯尔投稿,期刊 / 会议投稿 ,工程、计算机、医学等 ,与 ScienceDirect 集成、自动查重与格式检查 - SpringerLink
由 Springer 和 Nature 出版集团合并而成,是自然科学、工程技术、医学领域的巨头,在计算机科学和工程学方面尤为突出。 - ieeexplore
全球最大的非营利性专业技术学会,在电气、电子、计算机工程等领域拥有巨大的权威性,以出版高质量的科技期刊、举办国际会议和制定行业标准而闻名,是全球范围内最重要的科技出版机构之一。
——————部分写作工具
- 写作工具,LaTeX 模板库
- 论文格式排版 提供顶会(如 ICML、CVPR)官方模板、在线协作
Zotero
- 开源文献管理工具 ,一键抓取文献元数据;分类、批注、导出 BibTeX;团队协作库;插件扩展
matlab
- 画图工具
- 也可以用python的matplotlib,或者直接PPT
(3)学者:AI2000,ORCID,Google Scholar,DBLP,OpenReview
AI2000
- 人工智能全球 2000 位最具影响力学者榜单, 榜单
- AI2000人工智能学者排名
- 清华 AMiner 发布的 AI 领域顶级学者榜单,覆盖 20 个子领域,每年每领域选 10 位学者,10 年共 2000 位
- 基于过去 10 年顶会顶刊论文引用与影响力遴选;分 “最具影响力学者奖”(前 10)与 “提名奖”(前 100) ,学术影响力评估、领域标杆学者识别。

- 学者身份唯一标识 关联所有投稿平台、避免姓名歧义、成果统一管理
DBLP - Digital Bibliography & Library Project
- 计算机科学领域权威文献数据库,收录顶会 / 期刊论文元数据,人工审核保证质量
按作者 / 会议 / 期刊检索、开放 XML 数据下载、无重复收录、免费开放访问
Google Scholar
- 免费学术搜索引擎,收录全球多学科论文、引用、作者主页与期刊影响因子
- 开放同行评审平台
- 顶会(如 ICLR、NeurIPS)的公开评审与讨论平台,支持论文投稿、评审、Rebuttal 与结果公示
- 透明评审流程、公开评论与分数、作者 - 审稿人互动、会议投稿管理, 会议投稿、评审参与、论文质量与争议追踪
Web of Science ResearcherID
- 科睿唯安学者标识符
- 唯一 ID 关联 WOS 收录成果;跟踪 h 指数与引用;与 ORCID 互认
- 权威引文索引场景的成果认领与影响力评估