【MLLM】2025年大模型行业现状与方向调研(LLM/MLLM/AIGC,训练/推理/Infra,工业界/学术界)

【MLLM】2025年大模型行业现状与方向调研(LLM/MLLM/AIGC,训练/推理/Infra,工业界/学术界)

文章目录

1、2025 大模型行业三大赛道:LLM/MLLM/AIGC

背景:

  • 2025 年的大模型行业已告别 “野蛮生长”,进入 “结构化竞争” 阶段。
    核心特征十分明确:基座模型研发被巨头垄断,中小玩家转向应用落地与细分技术突破
    全球范围内,OpenAI、Google、Meta 凭借算力集群(如 OpenAI 的 GPT-4 系列训练集群)、海量合规数据与顶尖算法团队,占据 LLM 基座模型的绝对主导地位;
    国内头部科技企业则通过 “自研基座 + 行业适配” 双线布局,形成区域竞争壁垒。
    据行业测算,训练一个 SOTA 级 LLM 基座的成本已突破 10 亿美元,且需跨学科顶尖人才团队持续投入,普通公司或初创企业已完全不具备入局能力,“造模型” 成为少数巨头的专属游戏。​
  • 与此同时,行业创新重心正加速转移:
    一方面,纯 LLM 领域从 “架构创新” 转向 “工程化落地”,核心价值体现在模型的行业适配与高效部署;
    另一方面,多模态成为技术突破的核心战场,端侧部署、跨模态交互等场景的创新层出不穷,例如 2025 年推出的 MiniCPM-V 4.0 端侧多模态模型,仅 4.1B 参数量就实现了超越 GPT-4.1-mini 的图像理解能力,还支持 iPhone、iPad 等移动端离线部署,印证了多模态技术 “轻量化、实用化” 的发展趋势。
    此外,AIGC 的商业化进程进一步提速,从 “概念验证” 走向 “规模化盈利”,成为连接技术与市场的核心桥梁。

(1)纯语言大模型(LLM):工程化深耕,分化明显

  • 微调(Fine-tuning)
    行业数据适配的核心手段,例如金融行业用监管合规数据微调基座模型,医疗行业用病例数据优化诊断问答能力。该方向技术流程日趋标准化,从数据标注、配比到训练调参,已形成成熟方法论,技术创新空间有限,更考验从业者对行业数据的理解与工程落地经验,逐渐成为 “高门槛熟练工种”。​
  • 检索增强生成(RAG)
    LLM 应用的 “标配能力”,几乎所有企业级 LLM 产品都已集成。当前核心挑战集中在 - “工程优化”—— 如何提升 embedding 的行业适配性、优化检索引擎的响应速度、降低生成内容的幻觉率,但算法层面的突破性创新极少,更多是基于现有框架的细节打磨。​
  • Agent 开发
    2025 年持续热门的应用方向,本质是 “提示词工程 + 工具调用 + 基础规划逻辑” 的组合。例如办公 Agent 连接文档、邮件、日程工具实现自动化工作流,客服 Agent 整合知识库与工单系统提升响应效率,但核心依赖基座模型的理解与执行能力,开发者更多是 “场景设计者” 而非 “技术创造者”。​
  • 模型压缩、量化与部署
    刚需且稳定的赛道,随着企业对 LLM 部署成本的敏感度提升,轻量化技术需求激增。该方向更偏向 MLOps 与模型工程,从业者需掌握 TensorRT、ONNX 等部署工具,熟悉不同硬件(CPU/GPU/ 边缘设备)的适配逻辑,虽远离核心算法,但就业需求持续旺盛,待遇水平稳定。
  • 从业价值来看,LLM 领域岗位 “下限高、天花板有限”:普通从业者可凭借工程能力获得不错待遇,但个人价值高度依赖所使用的基座模型,难以形成独立技术壁垒;仅少数头部企业核心团队的研究者,能参与预训练算法、模型结构的底层创新,这类岗位门槛极高,需具备顶会论文发表能力与多模态跨学科知识储备。

(2)生成式模型(AIGC):商业化落地为王,方差巨大​

  • AIGC 在 2025 年已形成清晰的 “业务导向” 定位 —— 不再是泛化的技术概念,而是聚焦具体场景的产品化落地。其核心特征是 “技术封装化、岗位细分化”:​
  • 典型应用场景已从早期的 “文生图、文生视频” 拓展到垂直领域,例如营销行业的 AI 广告生成平台 (支持文案、视频、海报一体化生成) 、教育行业的 AI 课件制作工具、编程领域的智能代码生成与调试助手等。​
  • 分工上,企业通常仅保留小团队负责模型微调与优化,大部分岗位为 “应用算法工程师” 或 “后端工程师”,核心工作是将开源或第三方模型封装为 API,嵌入业务流程,解决数据清洗、接口适配、用户体验优化等实际问题。​
  • 该赛道的核心优势是 “离市场近、成果可见”:成功商业化的产品(如头部 AI 设计工具)核心成员,可获得高额回报;但短板也十分突出 —— 对于志在核心算法的从业者,工作内容更偏向业务逻辑而非技术创新,大量时间耗费在需求对接、数据处理与 API 调试上,技术深度可能不足。待遇方面,行业分化严重:头部商业化企业核心岗较大厂同级岗位高出 20%-50%,而尚未找到盈利模式的初创公司,待遇可能低于大厂基础工程岗。​

(3)多模态大模型(MLLM):蛮荒之地的机遇,技术壁垒决定竞争力​

  • 2025 年的 MLLM 已成为大模型行业的 “创新引擎”,被视为未来 5 年技术突破的核心方向,其核心魅力在于 “未被解决的根本性问题” 与 “广阔的应用前景”
  • 技术价值:从 “单一模态” 到 “真实世界交互”:人类认知世界的本质是多模态融合(视觉、听觉、语言等),而纯文本 LLM 无法理解物理世界的空间关系、视觉细节与声音信息。MLLM 的核心使命是解决 “跨模态对齐” 问题 —— 例如文生视频的时间一致性、3D 生成的物理规律适配、图像 - 文字 - 语音的跨模态理解等,这些都是尚未被完全攻克的技术难题,每个方向都可能诞生颠覆性产品。2025 年端侧多模态模型的爆发(如 MiniCPM-V 4.0),更让 “移动端实时多模态交互” 成为新热点,进一步拓宽了应用场景。​
  • 技术壁垒复合型知识栈筛选优质人才:MLLM 对从业者的要求远超纯 LLM—— 不仅要精通 NLP 与 CV 的核心算法,还需掌握图形学(3D 生成场景)、语音处理(音频模态场景)、视频压缩(长视频生成场景)等跨学科知识。例如要理解 Diffusion Model 的数学原理、NeRF 神经辐射场的底层逻辑,需投入大量时间深耕,无法通过短期学习快速上手。这种高壁垒形成了天然的人才筛选机制,也让从业者具备更强的抗行业波动能力。​
  • 从业案例与价值:某 CV 背景从业者在行业扎堆转向 LLM 时,专注 3D 生成与多模态融合技术,深耕 DiT 架构、视频压缩网络等底层技术。2025 年 Sora 引爆视频生成赛道后,各大厂纷纷布局多模态内容生成,该从业者因扎实的技术积累,获得多家头部企业高薪 offer,package 较同级 LLM 应用岗高出 30% 以上。这一案例印证了 MLLM 领域的核心逻辑:技术壁垒越高,职业竞争力越强,天花板越高

参考资料:1

2、岗位分类,发展路径

2.1 职业方向对比(训练,推理,Infra)

对比维度训练(算法岗、科研类)推理(应用岗、科研&工程类)AI-Infra(工程类)
核心定位生产工具(模型创新与优化)使用工具(业务场景落地)支撑工具(技术基建搭建)
核心职责1. 模型结构 / 预训练算法创新(如多模态跨模态表征);2. 模型微调(SFT)、强化学习(RL)优化;3. 解决技术根本性问题(如长视频生成一致性);4. 科研攻关与论文 / 专利产出1. 模型能力封装(API/SDK 开发);>2. 业务流程嵌入与需求适配(如 AI 广告生成平台搭建); 提示词工程、用户体验优化;4. 数据清洗、接口调试与异常监控1. 算力平台搭建(分布式训练集群、云服务部署);2. 训练 / 推理框架优化(如 PyTorch、DeepSpeed、vLLM);3. 资源调度、模型部署运维(容器化、硬件适配);. GPU 算子开发(CUDA/Triton)与性能优化
价值导向技术突破与模型性能提升业务指标达成与商业化落地训练 / 推理效率提升与稳定性保障
核心技能1. 扎实数学基础(线性代数、概率论);2. 深度学习框架(TensorFlow/PyTorch);3. 模型原理精通(Transformer、Diffusion 等);>4. 顶会论文读写与科研创新能力1. 开发语言(Python/Java)与 Web 框架(FastAPI/Flask);2. 业务需求拆解与方案设计;3. 数据处理与 API 调用;4. 行业知识与场景适配能力1. 计算机基础(操作系统、网络、数据结构);>2. 分布式系统与容器化技术(K8s/Docker);3. 框架开发(C++/CUDA)与算力调度; 硬件适配(GPU/CPU/ 边缘设备)与性能优化
典型产出优化后的模型、学术论文、技术专利上线功能、业务产品(如 AI 客服系统)、转化率提升等指标算力平台、优化后的框架、部署运维体系
适配人群热爱技术研发,追求技术深度,具备扎实算法 / 数学基础擅长需求拆解,注重落地效果,适应业务导向擅长底层技术搭建,关注系统效率,具备工程化思维
准入难度高(研究岗★★★★★,SFT/RL 岗★★★★)中(★★☆-★★★☆)中高(★★★-★★★★)
待遇水平头部计划 80-150+,普通算法 30-80初级15 -30 ,资深 40 - 80,头部产品不算初级 20- 40 ,资深 60-120(如芯片 / 算力厂商核心岗)
行业需求集中于头部大厂、科研型初创企业全行业需求旺盛(大厂、创业公司均有布局)聚焦巨头、算力厂商、规模化 AI 企业
核心壁垒技术创新能力、跨模态知识储备、顶会 / 论文背书行业经验、场景落地能力、业务理解深度底层工程能力、框架开发经验、硬件适配知识
发展天花板高(技术突破可引领行业),但核心岗竞争激烈中高(可成长为业务负责人 / 产品总监)高(可成长为基建架构师 / 技术专家),需求稳定

2.2 职业方向细分(训练,推理,Infra)

科学研究(训练):基座研发->预训练->后训练RL->后训练SFT

  • 研究岗(Research)
    核心职能是科研攻关与技术转化,需在企业内部开展前沿研究(如多模态跨模态表征、预训练算法创新),并发表顶会论文或转化为模型训练方案。适合意向核心算法的从业者,实习推荐选择大厂研究院或有实力的初创企业(如专注多模态的独角兽公司),准入难度★★★★★,(头部计划)
  • 预训练岗(Pretrain)
    负责 LLM/MLLM 的基座预训练,需操作多卡集群,处理海量数据与集群运维。仅头部企业布局,招聘对象为顶尖人才(多为名校博士或有顶会论文者),且形成行业圈子,准入难度★★★★★ (头部计划);其中多模态预训练因范式尚未定型,机会略多于纯 LLM 预训练。
  • 后训练岗(RL)
    通过强化学习优化模型性能,是 2025 年热门方向,尤其多模态 RL 领域缺乏 “王炸级” 研究成果,创新空间大。准入难度★★★★,适合具备强化学习基础与跨模态知识的从业者。​
  • 后训练岗(SFT)
    聚焦通用基座的有监督微调,核心工作包括数据配比、模型蒸馏、CoT 思维链设计等,侧重强化模型特定能力(如行业合规性、专业问答能力)。准入难度★★★,是算法岗的 “入门选择”。​

应用研究(推理):Agent->搜广推->提示词工程

  • 应用岗(Agent)
    围绕 LLM/MLLM 构建智能体,核心是工具调用与场景数据构建,需理解业务场景与模型能力的匹配逻辑。2025 年需求旺盛,准入难度★★★,适合擅长场景落地的从业者。​
  • 应用岗(跨领域结合)
    融合大模型与搜索、推荐、广告等传统算法领域,例如用 LLM 优化推荐系统的召回逻辑、提升广告文案生成效率。准入难度★★★☆,适合有传统算法经验且想转型大模型的从业者。​
  • 其他业务岗
    针对特定业务场景开展模型后训练或提示词工程,例如金融大模型的合规性微调、医疗大模型的病例理解优化。岗位需求量最大,准入难度★★☆,适合追求稳定就业的从业者。​
  • 业务平台搭建(Web前后端开发)
    负责大模型应用的工程化落地,核心工作包括前端交互界面开发(如 AI 生成工具的操作面板)、后端服务搭建(如 API 网关、业务逻辑开发)、数据库设计与维护,支撑应用岗的场景落地。准入难度★★★,适合有工程开发经验的从业者。​

基础设施(AI-Infra)

细分岗位核心定位核心职责核心技能要求准入难度典型产出
IaaS 运维与开发硬件资源整合与调度1. 服务器(GPU/CPU)组装、集群组网与运维管理;2. 分布式存储系统搭建(如 Ceph),满足海量数据存储 / 读取;>3. 网络优化(低延迟、高带宽),保障跨节点通信; 硬件资源监控与故障排查。1. 计算机网络、操作系统(Linux);2. 分布式存储技术; GPU 硬件知识(NVIDIA A100/H100 适配);>4. 运维工具(Prometheus/Grafana)。★★★可调度的算力集群、存储集群
PaaS 算子开发计算效率优化核心1. 底层算子开发(CUDA/Triton),优化模型训练 / 推理的核心计算单元;2. 算子融合、精度优化(FP16/INT8 量化);. 适配不同硬件(GPU/ASIC)的算子移植。1. C/C++、CUDA 编程;. 深度学习计算原理;3. 性能分析工具(Nsight);. 并行计算知识。★★★★高性能算子库、量化工具
PaaS 训练与推理框架开发上层工具链支撑1. 训练框架优化(如 PyTorch/DeepSpeed 二次开发),提升分布式训练效率;. 推理框架开发 / 优化(如 vLLM/TensorRT-LLM),解决高并发、低延迟问题;>3. 框架与硬件的适配(如支持端侧 NPU)。1. Python/C++;. 深度学习框架内核理解; 分布式系统设计;4. 模型压缩、并行训练原理。★★★★优化后的训练 / 推理框架
SaaS 推理服务开发应用层部署与服务化1. 模型部署工程化(容器化、Serverless 部署);2. 推理服务集群搭建(负载均衡、弹性扩容);3. 服务监控(QPS、延迟)与熔断降级;4. 多模型统一调度与资源隔离。1. Docker/K8s 容器化技术;. 微服务架构(Spring Cloud/Go Micro); 推理框架(vLLM/Text Generation Inference);. 云服务(AWS / 阿里云)使用经验。★★★☆高可用的推理服务 API、调度平台
在这里插入图片描述

参考资料:1

3、后训练RL - 多模态方向

3.1 工业界(多模态基础、SFT、RL、RAG、分布式、场景)

(1)多模态基础与优化
  1. 什么是多模态大模型?核心挑战是什么?
    答案:融合文本、图像、音频等多种模态信息的模型,核心挑战是模态间异构性对齐跨模态语义理解的一致性
  2. 多模态模型的常见架构(如Flamingo、BLIP-2)核心设计思路是什么?
    答案:通过桥接模块(如Q-Former) 将图像特征映射到语言模型的语义空间,实现模态对齐。
  3. 多模态预训练的常见任务有哪些?
    答案:图像文本对比学习(CLIP)、图文匹配、图像描述生成、跨模态掩码预测。
  4. 如何增强多模态模型的识别准确度(比如识别医疗手写表格的特征与具体值)?
    答案:1. 用领域内高质量标注数据(医疗手写表格+结构化标签)做继续预训练/SFT;2. 加入空间注意力增强(聚焦表格单元格位置);3. 结合OCR模型先提取文本,再和图像特征融合;4. 用自监督学习做表格结构预训练(如行/列对齐任务)。
  5. 手写多头注意力的计算步骤?
    答案:1. 输入嵌入分别线性变换得到Q、K、V矩阵;2. 对Q、K做缩放点积注意力计算相似度;3. 用softmax得到注意力权重;4. 权重与V相乘得到单头注意力输出;5. 拼接所有头的输出,再线性变换得到最终结果。
  6. 为什么计算注意力要除以维度的平方根( d k \sqrt{d_k} dk​​)?
    答案:避免高维度下Q·K的内积结果过大,导致softmax输出趋近于one-hot,梯度消失,保证注意力分布更均匀。
  7. decoder-only结构(如LLaMA)从输入prompt到输出token的完整过程?
    答案:1. 输入prompt做词嵌入+位置编码;2. 经过多层decoder block(每层含掩码多头注意力+MLP),掩码保证当前token只关注前文;3. 顶层输出经线性层映射到词表维度;4. softmax得到下一个token的概率分布;5. 采样生成token并拼接回输入,重复步骤2-4直至生成结束符。
  8. 有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息?
    答案:1. 增加维度映射层(如线性层将 d d d维→ d 1 × d 2 d_1\times d_2 d1​×d2​维,再reshape为 [ b a t c h , s e q l e n , d 1 , d 2 ] [batch, seq_len, d_1, d_2] [batch,seql​en,d1​,d2​]);2. 位置编码同步扩展:将原2维位置编码通过同样线性层映射后reshape,或在新增维度上添加位置信息(如深度维度位置编码);3. 用卷积层(如1×1卷积)升维,利用卷积的参数共享特性保留原有语义和位置特征。
  9. 跨模态对齐如何做?你都了解哪些对齐方式?
    答案:1. 对比学习对齐(如CLIP,最大化同样本图文特征相似度,最小化异样本);2. 生成式对齐(如BLIP,图像生成文本/文本生成图像,强制模态间语义一致);3. 桥接模块对齐(如Q-Former,用可学习模块将图像特征映射到语言模型空间);4. 掩码重建对齐(如多模态BERT,掩码图文片段让模型预测,学习跨模态关联)。
  10. ROPE(旋转位置编码)给我介绍一下?
    答案:一种绝对位置编码,通过旋转矩阵将位置信息融入query和key的向量中,公式为 q r o t = q ⊙ cos ⁡ ( m θ ) + q ⊥ ⊙ sin ⁡ ( m θ ) q_{rot}=q\odot\cos(m\theta)+q_{\perp}\odot\sin(m\theta) qrot​=q⊙cos(mθ)+q⊥​⊙sin(mθ)( m m m为位置, θ \theta θ为预设频率);优势是支持外推(长文本位置可直接计算),且能捕捉相对位置关系。
  11. 说一下P-tuning的原理?
    答案:一种软提示调优方法,冻结预训练模型权重,只训练少量可学习的软提示嵌入(virtual tokens);将软提示插入输入序列,通过调整软提示来适配下游任务;解决了硬提示人工设计成本高、全参数微调显存开销大的问题,适合小样本场景。
(2)后训练(SFT/继续预训练)
  1. 什么是指令微调(SFT)?和预训练的区别是什么?
    答案:用指令-响应数据微调预训练模型,让模型遵循人类指令;预训练学通用知识,SFT学任务适配能力。
  2. 多模态SFT的数据有什么特点?如何构建高质量多模态指令数据集?
    答案:需包含多模态输入(图+文指令)和对应响应;构建需保证模态信息完整性指令多样性响应准确性,并做去噪清洗。
  3. 后训练中过拟合的原因和解决方法?
    答案:原因是数据量小、模型容量大;方法是增大数据量、加入正则化(dropout/权重衰减)、使用早停。
  4. 多模态模型继续预训练的场景和目的?
    答案:针对特定领域(如医疗影像+报告),目的是让模型学习领域内的跨模态专属知识,提升下游任务性能。
  5. Lora为什么在工业界这么吃香?原因是什么?
    答案:1. 显存开销低:只训练注意力层的低秩矩阵,冻结主模型权重,训练参数量仅为全量微调的千分之一;2. 部署灵活:多个任务的Lora权重可插拔,实现“一基多模”;3. 训练速度快:无需计算主模型梯度,适配消费级GPU;4. 效果好:低秩分解能捕捉任务关键特征,性能接近全量微调。
  6. 训练大模型的数据如何弄的?
    答案:1. 公开数据集(如CC3M、LAION)做通用预训练;2. 领域数据爬取/合作获取(如医疗数据需合规授权);3. 数据清洗(去重、去噪、过滤低质量内容);4. 数据增强(多模态数据如图像裁剪/文本同义改写);5. 指令数据构建(人工标注、AI生成+过滤)。
  7. 如何关注训练过程中的指标?训练步数如何确定?
    答案:监控指标:训练损失(是否下降收敛)、验证损失(判断过拟合)、下游任务指标(如多模态分类准确率、生成BLEU分数)、显存/算力利用率;确定步数:1. 用早停法(验证损失连续多轮不下降则停止);2. 参考经验值(如SFT通常训练1-3个epoch);3. 小批量测试不同步数的效果,选择最优值。
(3)强化学习与模型对齐(RLHF/RLAIF/DPO)

RLHF:基于人类标注偏好训练奖励模型,再用 PPO 算法微调模型,实现模型与人类偏好对齐的强化学习方法
RLAIF:用 AI 标注替代人类标注生成偏好数据的对齐方法,降低 RLHF 的标注成本与规模限制
DPO:无需训练奖励模型,直接用偏好排序数据端到端优化策略的对齐算法,流程更简洁、训练更高效

  1. RLHF的三大核心步骤是什么?详细流程讲一下?
    答案:步骤1:有监督微调(SFT),用高质量指令-响应数据微调预训练模型,得到遵循指令的初始模型;步骤2:训练奖励模型(RM),收集模型的多个输出,人工标注偏好排序,训练RM对输出打分,衡量与人类偏好的对齐度;步骤3:强化学习微调(PPO),以RM的打分作为奖励信号,用PPO算法微调SFT模型,让模型输出更符合人类偏好;额外步骤:加入KL散度约束,避免模型偏离SFT模型太远导致性能崩塌。
  2. RLHF的三个流程中你觉得哪个应该是最重要的?为什么?
    答案:训练奖励模型(RM) 最重要;因为RM是人类偏好的“代言人”,RM的打分质量直接决定最终模型的对齐效果;若RM标注不一致或打分不准,后续PPO训练会朝着错误的方向优化,甚至出现奖励崩塌。
  3. 奖励模型(RM)的作用是什么?训练时的关键注意事项?如何训练?训练到什么程度可以?
    答案:作用:对模型输出打分,衡量和人类偏好的对齐程度;训练注意事项:1. 标注数据需一致性高(不同标注者偏好统一);2. 构建多样化正负样本(包含不同错误类型的输出);3. 避免奖励崩塌(防止模型利用RM漏洞输出高分无意义内容);训练方法:收集模型输出的排序样本,用排序损失(Pairwise Ranking Loss) 训练,让RM给更优输出打更高分;训练停止标准:验证集上的排序准确率稳定(如>90%),且在小批量人工评估中打分与人类偏好一致。
  4. Reward model不准确怎么办?
    答案:1. 重新标注高质量数据,增加难例样本(如相似输出的精细排序);2. 迭代优化RM,用当前模型生成的输出扩充训练集,再重新训练;3. 加入正则化(如权重衰减、dropout),防止RM过拟合标注偏差;4. 多RM融合,训练多个不同初始化的RM,综合打分;5. 引入辅助损失(如KL散度约束RM打分范围)。
  5. 为啥RLHF中要用PPO?和其他RL算法的区别?
    答案:PPO的核心优势是信任域(Trust Region) 限制,通过裁剪策略梯度,避免模型参数更新幅度过大,防止训练崩溃;与其他RL算法区别:1. 相比TRPO,PPO实现更简单,计算开销更低;2. 相比DQN,PPO适合连续动作空间(模型输出是概率分布);3. 相比A2C,PPO支持离线数据训练,更稳定。
  6. PPO的原理?
    答案:一种近端策略优化算法,核心是最大化“裁剪后的优势函数”;步骤:1. 用当前策略收集数据,计算动作的优势值(衡量动作好坏);2. 计算新旧策略的概率比值,裁剪该比值到[1-ε, 1+ε]区间,限制策略更新幅度;3. 交替执行“采样数据→更新策略”,保证策略在信任域内优化,兼顾训练稳定性和效率。
  7. PPO是倾向于将模型往什么方向训练?
    答案:倾向于在人类偏好的方向上渐进优化,同时通过KL散度约束,保证模型不会偏离有监督微调的初始模型太远,平衡“对齐人类偏好”和“保留模型原有能力”。
  8. 在用vLLM做强化学习时,你是根据什么指标来查看训练的进度的?
    答案:1. 奖励分数(RM的打分是否持续上升,代表对齐度提升);2. KL散度(与SFT模型的输出分布差异,需控制在合理范围,避免漂移);3. 策略梯度的方差(方差小说明训练稳定);4. 下游任务指标(如多模态生成的相关性、准确性);5. 推理速度/吞吐率(vLLM部署下的性能,保证优化后不降低部署效率)。
  9. 什么是RLAIF?解决了RLHF的什么问题?
    答案:用AI标注替代人类标注的强化学习对齐方法;解决了RLHF中人类标注成本高、规模小、一致性差的问题。
  10. 多模态RLHF的难点是什么?
    答案:多模态输出的奖励难以量化、跨模态反馈信号的稀疏性、模态间对齐和偏好对齐的双重目标。
  11. 什么是对齐税(Alignment Tax)?如何缓解?
    答案:模型对齐后任务性能下降的现象;缓解方法是在RL阶段加入预训练损失(KL散度约束) ,平衡对齐和性能。
  12. DPO了解吗?DPO和PPO有什么区别?你更喜欢使用哪种?
    答案:DPO是直接偏好优化,一种无需训练奖励模型的对齐算法,直接用偏好排序数据优化策略;区别:1. 流程上,DPO省去RM训练步骤,端到端优化,PPO需要先训练RM;2. 稳定性上,DPO无需调整KL系数等超参数,鲁棒性更强,PPO对超参数敏感;3. 计算开销上,DPO训练速度更快,PPO需要交替采样和更新;偏好:DPO,因为流程更简洁、超参数更少、训练效率更高,适合快速迭代;但PPO灵活性更强,适合需要精细控制奖励信号的复杂场景。
  13. DPO的公式给我写一下或者口述一下?
    答案:核心是最小化负对数似然损失,目标函数为: L D P O ( π θ ) = − E ( x , y w , y l ) ∼ D [ log ⁡ σ ( β ( log ⁡ π θ ( y w ∣ x ) π r e f ( y w ∣ x ) − log ⁡ π θ ( y l ∣ x ) π r e f ( y l ∣ x ) ) ) ] L_{DPO}(\pi_{\theta}) = -\mathbb{E}_{(x,y_w,y_l)\sim D}[\log\sigma(\beta(\log\frac{\pi_{\theta}(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_{\theta}(y_l|x)}{\pi_{ref}(y_l|x)}))] LDPO​(πθ​)=−E(x,yw​,yl​)∼D​[logσ(β(logπref​(yw​∣x)πθ​(yw​∣x)​−logπref​(yl​∣x)πθ​(yl​∣x)​))];其中 x x x是输入, y w y_w yw​是偏好输出, y l y_l yl​是次优输出, π r e f \pi_{ref} πref​是参考模型(如SFT模型), β \beta β是温度系数,控制策略更新幅度。
  14. DPO跟对比学习有哪些相同点和不同点?
    答案:相同点:1. 都依赖成对样本(对比学习是正负样本对,DPO是偏好排序对);2. 都通过相对比较优化模型,而非绝对标签;不同点:1. 目标不同,对比学习是最大化同类相似度,DPO是最大化偏好输出的概率;2. 应用场景不同,对比学习多用于预训练阶段的模态对齐,DPO多用于对齐阶段的偏好优化;3. 模型输入不同,对比学习输入多模态特征,DPO输入文本/多模态指令和输出序列。
  15. Reward有多个目标可以怎么做?
    答案:1. 多奖励模型融合,为每个目标训练独立RM,再加权求和得到总奖励;2. 分层奖励设计,主奖励对应核心目标(如人类偏好),辅助奖励对应子目标(如安全性、事实性);3. 多目标优化算法,用帕累托最优或加权损失,同时优化多个奖励目标;4. 在RM训练中加入多目标标注,让单个RM学习多个目标的综合打分。
  16. Reward model和训练的LLM模型用同一个基座模型可能有什么作用?
    答案:1. 降低训练开销,共享基座模型的权重,无需重新训练特征提取层;2. 提升特征一致性,RM和LLM用相同的语义空间,打分更准确,避免模态/语义错位;3. 支持参数共享,可采用共享编码器+不同输出头的结构,提升训练效率;4. 便于迁移优化,RM的训练经验可迁移到LLM微调,加速对齐过程。
  17. 如何提升RLHF的效率?你认为关键在哪里?
    答案:提升方法:1. 用Lora/QLoRA降低训练参数量;2. 采用离线RL,复用历史数据减少采样次数;3. 优化RM训练(如用AI标注替代人工标注);4. 分布式训练(模型并行/数据并行);关键在于提升数据利用效率降低计算开销,因为RLHF的瓶颈是数据标注成本和PPO训练的高算力消耗。
(4)RAG与模型幻觉
  1. 讲一讲你对RAG的理解?
    答案:检索增强生成(RAG)是一种提升LLM事实性的技术,核心流程是检索→增强→生成:先从外部知识库检索与query相关的文档片段,再将文档和query拼接成prompt输入模型,最后模型基于检索到的事实生成回答;分为检索式RAG(仅检索外部知识)和增强式RAG(结合模型自身知识)。
  2. 模型的幻觉问题?以及RAG的好处?如何利用RAG去缓解模型幻觉?
    答案:幻觉是模型生成看似合理但不符合事实的内容,原因是预训练知识过时/不完整、生成时过度推理;RAG的好处:1. 提升回答事实准确性;2. 降低幻觉率;3. 无需重新训练模型即可更新知识;缓解幻觉的方法:1. 检索权威、最新的知识库,为生成提供事实依据;2. 用检索结果作为唯一参考,限制模型依赖自身记忆;3. 加入溯源机制,让模型标注回答的来源;4. 优化检索策略(如多路检索、重排序),提升检索准确性。
(5)工程部署与分布式训练
  1. 多模态大模型训练时显存不足的解决方法?
    答案:使用混合精度训练、梯度累积、模型并行/张量并行、激活重计算(activation checkpointing)、量化训练(如4bit/8bit)。
  2. vLLM部署多模态模型的核心优化点是什么?
    答案:基于PagedAttention的高效注意力机制,将KV缓存划分为固定大小的page,实现动态分配,提升吞吐率,降低推理延迟。
  3. LLM的分布式框架了解过吗?展开讲一下它们的优缺点?1
    答案:主流框架分为三类:
    • 数据并行(DP/DDP):代表框架PyTorch DDP;优点:实现简单,适合数据量大的场景;缺点:模型不能超过单卡显存,通信开销随卡数增加而增大。
    • 模型并行:代表框架Megatron-LM、DeepSpeed;分为张量并行(TP)和流水线并行(PP);TP优点:将单一层的参数拆分到多卡,适合大模型;缺点:卡间通信频繁;PP优点:将模型层拆分到多卡,适合超深模型;缺点:存在流水线气泡,算力利用率低。
    • 混合并行:代表框架DeepSpeed、Colossal-AI;优点:结合数据并行、张量并行、流水线并行,支持万亿参数模型训练;缺点:配置复杂,对硬件拓扑要求高。
  4. llama factory代码看过吗?
    答案:看过,Llama Factory是一个轻量级大模型微调框架,支持LLaMA、Qwen等模型的SFT、RLHF、DPO训练;特点是集成了Lora/QLoRA、多模态适配、分布式训练等功能,配置简单,开箱即用;核心模块包括数据处理、模型加载、训练策略(PPO/DPO)、评估工具,适合快速验证算法思路。
  5. Ray 在 LLM 分布式中的角色
    答案:Ray 不是单纯的 “训练框架”,而是分布式计算引擎,核心优势是 “资源调度 + 跨框架适配”:比如用 Ray Train 封装 PyTorch 的 DDP/FSDP,实现多节点 LLM 训练的自动资源分配、故障恢复;还可结合 Ray Serve 做 LLM 推理部署,实现训练 - 部署一体化。相比原生 PyTorch,Ray 更适合大规模集群(数十 / 数百卡) 的 LLM 训练,能降低集群管理成本。
  6. FSDP(完全分片数据并行)的核心价值
    答案:Accelerate/Trainer/Lightning/Ray 均支持 FSDP,这是 LLM 训练的关键 :FSDP 将模型参数、梯度、优化器状态全部分片到多卡,相比传统 DDP(单卡存完整模型),能训练更大模型(如 70B+) ,是中小框架适配大模型的核心方案;而 TP(张量并行)通常需依赖 Megatron-LM/DeepSpeed,原生 PyTorch/Ray 需手动实现。
框架/工具核心定位分布式能力(LLM场景)优点缺点典型使用场景
原生PyTorch基础张量计算/分布式底层支持DDP(数据并行)、TP(张量并行,需手动实现)、PP(流水线并行,需手动写逻辑)灵活性最高,可定制所有细节分布式代码开发成本高,需手动处理通信/同步自研大模型框架、极致定制化训练需求
Hugging Face AcceleratePyTorch分布式训练封装层一键适配DDP/FSDP(完全分片数据并行),支持多卡/多节点,封装了混合精度、梯度累积等轻量化,无侵入式适配现有PyTorch代码仅封装基础分布式逻辑,不支持复杂模型并行中小规模LLM(10B以内)的SFT/预训练
Hugging Face Trainer端到端训练封装基于Accelerate实现分布式,支持DDP/FSDP,内置训练流程(数据加载→训练→评估)开箱即用,无需写训练循环灵活性低,复杂分布式策略(如TP)难定制快速验证算法、中小模型微调
PyTorch Lightning训练流程工程化封装封装DDP/FSDP,支持多节点训练,提供统一的训练循环/日志管理代码模块化,易维护,适配多硬件模型并行(TP/PP)需依赖第三方扩展企业级LLM训练,注重工程化/可维护性
Ray(Ray Train)分布式计算框架支持DDP/FSDP,可对接PyTorch/TensorFlow,提供资源调度、容错、弹性扩缩容适配大规模集群,支持异构硬件(GPU/CPU)学习成本略高,LLM专用优化少于DeepSpeed超大规模LLM分布式训练/推理、集群调度
(6)项目场景题
  1. 讲一个你最熟悉的模型(DeepSeek-R1)
    答案:DeepSeek-R1是深度求索推出的多模态对话模型,基于LLaMA架构扩展多模态能力;核心设计:1. 用Q-Former作为图像编码器,将图像特征映射到语言模型空间;2. 采用多阶段训练(预训练→SFT→RLHF),提升跨模态理解和对话能力;优势:在图文问答、视觉推理任务上表现优异,且支持高效部署;应用场景:智能客服、视觉问答、教育辅助等。
  2. 如果让你做一个多模态对话模型的后训练+RLHF,你的流程是什么?
    答案:1. 构建多模态对话指令数据集(图+文指令+响应);2. 用Lora做SFT,得到初始多模态对话模型;3. 收集模型输出的多模态回答,人工标注偏好排序;4. 训练多模态奖励模型(输入图文+回答,输出打分);5. 用PPO微调SFT模型,加入KL散度约束;6. 从主观(人工打分)和客观(跨模态任务指标)评估模型;7. 迭代优化数据集和训练超参数。

参考资料:1-LLM2-RL, 3-SFT框架12

3.2 学术界

(1)会议:CCFA - 人工智能 - 共7本

ccf官网排名, 介绍

ccfddl

NLP:ACL
CV: CVPR/ICCV
综合: IJCAI/AAAI/NeurIPS

会议简称英文全名中文译名主要领域定位(侧重接受的文章)2026届截稿时间录用率参考(近年)
ACLAnnual Meeting of the Association for Computational Linguistics计算语言学协会年会自然语言处理(NLP)核心领域,包括语言模型、文本生成、机器翻译、对话系统、多模态语言理解、计算语言学理论与应用,是NLP领域最权威顶会2026-01-06 19:59:5921.4%(2024:943/4407)
IJCAIInternational Joint Conference on Artificial Intelligence国际人工智能联合会议人工智能综合领域,覆盖机器学习、计算机视觉、NLP、知识表示与推理、智能规划、多智能体系统、智能机器人等核心方向,注重跨领域融合研究2026-01-20 19:59:5914.0%(2024:791/5651)
ICMLInternational Conference on Machine Learning国际机器学习大会机器学习全领域,包括监督/无监督/强化学习、深度学习、概率模型、统计学习、优化算法、机器学习理论与应用,与NeurIPS并称ML领域两大标杆顶会2026-01-29 19:59:5927.5%(2024:2609/9473)
AAAIAAAI Conference on Artificial Intelligence美国人工智能协会年会人工智能综合领域,涵盖机器学习、计算机视觉、NLP、知识图谱、AI伦理、规划决策、多智能体系统,兼顾理论创新与实际应用落地2025-08-02 19:59:59(已截稿)23.7%(2024:2342/9862)
CVPRIEEE/CVF Conference on Computer Vision and Pattern Recognition计算机视觉与模式识别会议计算机视觉核心领域,包括图像识别、目标检测、语义分割、视频理解、三维视觉、多模态视觉学习、自动驾驶感知、视觉生成模型等2025-11-14 19:59:00(已截稿)22.1%(2025:2878/13008)
ICCVIEEE International Conference on Computer Vision国际计算机视觉大会计算机视觉前沿与基础研究,包括底层视觉与感知、运动与跟踪、立体视觉、图像与视频生成、视觉推理、机器人视觉、多模态视觉理解等,每两年举办一次2025-03-08 17:59:59(已截稿)26.2%(2023:2160/8260)
NeurIPSConference on Neural Information Processing Systems神经信息处理系统大会人工智能与机器学习顶尖会议,覆盖深度学习、强化学习、神经网络、多模态表示学习、计算神经科学、AI安全与可解释性、大模型高效训练等前沿方向2025-05-16 19:59:59(已截稿)25.8%(2024:4037/15671)
在这里插入图片描述
(2)期刊:CCFA-人工智能-共4本
序号刊物简称英文全称中文译名出版社Link文章侧重投稿周期
1AIArtificial Intelligence《人工智能》Elsevier1人工智能基础理论、自动推理、认知建模、伦理AI;强调理论创新与有效性论证,优先接收对领域有重大进展的研究,纯应用类论文需突出方法创新性约9个月(含审稿与修改)
2TPAMIIEEE Transactions on Pattern Analysis and Machine Intelligence《IEEE模式分析与机器智能汇刊》IEEE Computer Society1计算机视觉、模式识别、机器学习、医学影像分析、生成模型等;侧重原创性与工程落地价值,是CV/PR领域的权威标杆7–9个月(含多轮审稿)
3IJCVInternational Journal of Computer Vision《国际计算机视觉杂志》Springer1计算机视觉基础理论与前沿方法,如三维重建、目标检测、视觉理解、多模态融合;接收高质量原创研究与少量综述6–12个月(审稿严格,周期波动大)
4JMLRJournal of Machine Learning Research《机器学习研究杂志》Microtome Publishing1机器学习全领域,含理论、算法、优化、概率模型、强化学习、公平性与可解释性;鼓励开源与可复现,对理论深度与创新性要求高6–8个月(含开放评审)

期刊投稿 - 最大出版社

  • Elsevier Editorial System
    总部在荷兰,全球最大出版社,发表全球约16%的科研论文,旗下有《柳叶刀》、《细胞》等著名期刊,其 ScienceDirect 和 Scopus 数据库是学术界重要资源。
    爱思唯尔投稿,期刊 / 会议投稿 ,工程、计算机、医学等 ,与 ScienceDirect 集成、自动查重与格式检查
  • SpringerLink
    由 Springer 和 Nature 出版集团合并而成,是自然科学、工程技术、医学领域的巨头,在计算机科学和工程学方面尤为突出。
  • ieeexplore
    全球最大的非营利性专业技术学会,在电气、电子、计算机工程等领域拥有巨大的权威性,以出版高质量的科技期刊、举办国际会议和制定行业标准而闻名,是全球范围内最重要的科技出版机构之一。

——————部分写作工具

overleaf

  • 写作工具,LaTeX 模板库
  • 论文格式排版 提供顶会(如 ICML、CVPR)官方模板、在线协作

Zotero

  • 开源文献管理工具 ,一键抓取文献元数据;分类、批注、导出 BibTeX;团队协作库;插件扩展

matlab

  • 画图工具
  • 也可以用python的matplotlib,或者直接PPT
(3)学者:AI2000,ORCID,Google Scholar,DBLP,OpenReview

AI2000

  • 人工智能全球 2000 位最具影响力学者榜单, 榜单
  • AI2000人工智能学者排名
  • 清华 AMiner 发布的 AI 领域顶级学者榜单,覆盖 20 个子领域,每年每领域选 10 位学者,10 年共 2000 位
  • 基于过去 10 年顶会顶刊论文引用与影响力遴选;分 “最具影响力学者奖”(前 10)与 “提名奖”(前 100) ,学术影响力评估、领域标杆学者识别。
在这里插入图片描述

ORCID

  • 学者身份唯一标识 关联所有投稿平台、避免姓名歧义、成果统一管理

DBLP - Digital Bibliography & Library Project

  • 计算机科学领域权威文献数据库,收录顶会 / 期刊论文元数据,人工审核保证质量
    按作者 / 会议 / 期刊检索、开放 XML 数据下载、无重复收录、免费开放访问

Google Scholar

  • 免费学术搜索引擎,收录全球多学科论文、引用、作者主页与期刊影响因子

OpenReview

  • 开放同行评审平台
  • 顶会(如 ICLR、NeurIPS)的公开评审与讨论平台,支持论文投稿、评审、Rebuttal 与结果公示
  • 透明评审流程、公开评论与分数、作者 - 审稿人互动、会议投稿管理, 会议投稿、评审参与、论文质量与争议追踪

Web of Science ResearcherID

  • 科睿唯安学者标识符
  • 唯一 ID 关联 WOS 收录成果;跟踪 h 指数与引用;与 ORCID 互认
  • 权威引文索引场景的成果认领与影响力评估

Read more

2026最新保姆级教程:Windows 下使用 uv 从零配置 Python (OpenCV) 环境指南

Windows 下使用 uv 从零配置 Python (OpenCV) 环境指南 本文档适用于在一台全新的 Windows 电脑上,使用 uv 快速配置vscode + Python 3.10 开发环境,并安装 OpenCV 库。同时包含关于 uv 的进阶说明。 B站配套视频 2026最新:使用uv管理python&opencv 🟢 第一步:安装 uv 包管理器 既然电脑上什么都没有,我们需要先安装这个核心工具。 1. 按下 Win + R 键,输入 powershell,按回车打开终端。 2. 复制并粘贴以下命令,按回车运行(三选一): * 或者进如 uv 下载链接 找到

By Ne0inhk
在昇腾 NPU 上部署与测评 CodeLlama-7b-Python

在昇腾 NPU 上部署与测评 CodeLlama-7b-Python

目标:本文记录了我在昇腾 NPU 环境中从零开始部署 CodeLlama-7b-Python 模型的全过程,包括环境配置、模型加载、推理验证及基础性能评估。所有操作均基于 GitCode Notebook 平台提供的昇腾实例完成,旨在为后续开发者提供一份可复现的参考流程。 一、环境准备:启动合适的 Notebook 实例 首先,我在 GitCode Notebook 平台上选择了一个支持昇腾 NPU 的计算实例。这类实例通常预装了 CANN(Compute Architecture for Neural Networks)工具链和 PyTorch + torch_npu 插件,省去了手动编译驱动的麻烦。 算力资源申请链接: https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1?source_module=search_

By Ne0inhk
Python入门:Python3 pyecharts模块全面学习教程

Python入门:Python3 pyecharts模块全面学习教程

Python入门:Python3 pyecharts模块全面学习教程 Python入门:Python3 pyecharts模块全面学习教程,这篇 pyecharts 学习教程围绕 Python 数据可视化展开,先介绍 pyecharts 基于 ECharts、Python 友好、支持交互式操作、图表类型丰富且高可定制的核心优势;接着详解其安装方法(主流的 pip 一键安装与备用的源码安装)及版本验证方式,并提供常用图表 “类型 - 类名 - 导入方式” 速查表;随后以月度销售额柱状图为案例,演示从数据准备、图表创建到渲染的基础流程,进阶部分通过 set_global_opts 配置标题、坐标轴、工具箱等让图表更专业,还讲解 10 + 内置主题(如亮色系 LIGHT、暗色系 DARK)的切换技巧,最后给出尝试其他图表、

By Ne0inhk
Python 入门必吃透:函数、列表与元组核心用法(附实战案例)

Python 入门必吃透:函数、列表与元组核心用法(附实战案例)

🔥草莓熊Lotso:个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践:零基础也能懂》 ✨生活是默默的坚持,毅力是永久的享受! 🎬 博主简介: 文章目录 * 前言: * 一. 函数:告别重复代码的 “代码工厂” * 1.1 为什么需要函数? * 1.2 函数的核心语法(重点) * 1.3 函数的进阶用法(嵌套 + 递归) * 1.4 函数核心小结 * 二. 列表和元组:批量存储数据的 “容器” * 2.1 列表(list):最常用的可变容器 * 2.2 元组(tuple):不可变的序列容器 * 2.3 列表的元组小结 * 结尾:

By Ne0inhk