2024 年是大语言模型技术快速演进的一年,涌现了大量关键术语与架构创新。本文对当年及近期的核心技术词汇进行了系统梳理,涵盖模型架构、智能体应用、多模态生成、检索增强及强化学习优化等多个维度。
MoE (Mixture-of-Experts)
全称:混合专家模型
中文:混合专家(模型)
出处:最早概念由 Hinton 在 1991 年提出,2023 年 GPT-4 发布后引发关注,随后 Mistral AI 开源 Mixtral-8x7B,DeepSeek 推出 DeepSeekMoE 及 DeepSeek-V3。
技术解析:MoE 通过稀疏激活机制,在保持总参数量巨大的同时降低计算成本。每次推理仅激活部分专家网络,显著提升了模型的上下文处理能力和训练效率。
行业观察:尽管初期被寄予厚望,但 2024 年中后期推理模型成为焦点,不过 V3 等后续版本仍证明了 MoE 在大规模模型中的价值。
Agentic (Agent/Agentic)
中文:智能体化
出处:OpenAI 在 2023 年博客中定义 LLM Agent,2023 年底提出 Agentic AI 治理实践。
技术解析:Agent 指具备感知、规划、行动能力的自主系统。当前主流实现多为 Workflow + Prompt 的组合,旨在让模型能够调用工具完成复杂任务。
行业观察:虽然 2024 年应用落地声量未达预期,但 Anthropic 等机构强调构建有效 Agent 的重要性,未来将向更复杂的自主协作方向发展。
Sora
出处:2024 年 2 月 OpenAI 发布的视频生成模型。
相关竞品:快手可灵、智谱清影、MiniMax video-01、字节 PixelDance 和 Seaweed 等。
技术解析:Sora 展示了基于扩散模型的视频生成能力,实现了长视频的高质量连贯性生成。其背后涉及复杂的时空注意力机制。
行业观察:相比年初宣传,实际体验仍有差距,但标志着视频生成技术的重大突破,预计 2025 年将逐步开放更多功能。
GraphRAG
中文:图检索增强生成
出处:微软 2024 年 4 月提出《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》。
技术解析:传统 RAG 基于向量相似度检索,GraphRAG 引入知识图谱结构,利用图遍历增强全局信息理解,解决长文档摘要和复杂查询的幻觉问题。
行业观察:RAG 已成为解决 LLM 知识时效性和幻觉的关键范式,Graph 方式提供了新的结构化检索路径。
GPT-4o
出处:2024 年 5 月 OpenAI 发布的多模态模型。
相关竞品:阶跃 Step-1.5V、Meta Llama 3.2、Mistral Pixtral 12B、阿里 Qwen2-VL、百川 Baichuan-Omni。
技术解析:4o 实现了文本、音频、视觉的端到端统一处理,降低了延迟并提升了交互自然度。
行业观察:多模态是 AGI 的必经之路,但目前文本仍是核心交互载体,多模态能力仍在完善中。
o1
出处:2024 年 9 月 OpenAI 发布的推理模型。
相关竞品:阿里 QwQ-32B-Preview、DeepSeek-R1-Lite、智谱 GLM-Zero-Preview。
技术解析:o1 代表了推理能力的质变,通过增加测试时计算量(Test-Time Compute)来换取更高的逻辑推理准确率。
行业观察:被视为 2024 年大模型领域的里程碑,开启了'思考时间'换性能的新阶段。
ORM & PRM
全称:Outcome-supervised Reward Model / Process-supervised Reward Model
中文:结果监督奖励模型 / 过程监督奖励模型
出处:OpenAI 2023 年 5 月提出验证步骤方法。
技术解析:ORM 仅评估最终答案的正确性,PRM 则评估推理过程中每一步的质量。o1 的核心改进之一在于引入了过程监督,使模型能自我纠错。
行业观察:开源社区正在尝试复现 PRM 效果,但高质量标注数据仍是瓶颈。
Train-time Compute & Test-time Compute
中文:训练时计算量 / 测试时计算量
出处:OpenAI 2024 年 9 月博客《Learning to reason with LLMs》。
技术解析:训练时计算量指模型训练阶段的算力投入,测试时计算量指推理阶段允许的思考时间或采样次数。两者均影响最终性能。
行业观察:延长思考时间能显著提升复杂任务表现,但也增加了推理成本。
Inference Scaling Laws
中文:推理扩展定律
出处:基于 o1 发布后的实验分析,如《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving》。
技术解析:描述了推理计算量与模型性能之间的幂律关系,表明增加推理资源可带来收益。
行业观察:标志着 LLM 发展从单纯扩大参数转向优化推理策略。
MCTS (Monte Carlo Tree Search)
中文:蒙特卡洛树搜索
出处:2006 年《Bandit based Monte - Carlo Planning》。
技术解析:一种启发式搜索算法,常用于决策过程。在 o1 等推理模型中,可能用于探索解题路径。
行业观察:结合 RL 的搜索策略正成为提升推理能力的重要手段。
Self-Play, Self-Rewarding, Self-Correct, Self-Refine, Self-Reflection, Self-Consistency
中文:自博弈 / 自我奖励 / 自我纠错 / 自我优化 / 自我反思 / 自我一致性
出处:分别源自 AlphaGo、Meta 2024 论文、DeepMind 2024 论文、CMU 2023 论文等。
技术解析:这些机制旨在减少对人力的依赖。Self-Play 用于对抗训练,Self-Rewarding 让模型作为裁判,Self-Correct 用于迭代修正输出。
行业观察:人类倾向于低耗能模式,LLM 的自我进化能力若成熟将大幅降低数据标注成本。
RFT & ReFT
全称:Reinforcement Fine-Tuning / Reinforced Fine-Tuning
中文:强化微调
出处:OpenAI 12 Days 直播提出 RFT,字节 2024 年 1 月提出 ReFT。
技术解析:两者均指利用强化学习进行模型微调。OpenAI 的 RFT 侧重于 O1 系列定制,字节 ReFT 侧重于推理能力增强。
行业观察:专业领域固定答案的任务上,少量数据即可通过强化微调获得显著效果。
PPO, DPO, GRPO, ORPO, KTO, SimPO, RLOO
全称:Proximal Policy Optimization / Direct Preference Optimization / Group Relative Policy Optimization / Odds Ratio Preference Optimization / Kahneman-Tversky Optimization / Simple Preference Optimization / Reinforce Leave-One-Out
中文:近端策略优化 / 直接偏好优化 / 组相对策略优化 / 概率比偏好优化 / 前景理论优化 / 简单偏好优化 / 强化留一法
出处:OpenAI 2017 年提出 PPO,斯坦福 2023 年提出 DPO,DeepSeek 2024 年提出 GRPO 等。
技术解析:PPO 是经典 RLHF 算法;DPO 简化了奖励模型训练,直接优化策略;GRPO 通过组内比较减少方差;ORPO/KTO/SimPO/RLOO 均为无参考模型或改进版的偏好优化方法。
行业观察:中小团队更青睐 DPO 及其变种,因其无需训练独立奖励模型,部署更简便。
结语
2024 年 LLM 技术演进呈现出明显的'推理优先'趋势。从 MoE 架构的效率优化,到 o1 带来的推理范式变革,再到各类偏好优化算法的百花齐放,技术重心正从单纯的参数规模扩张转向推理质量与成本控制。2025 年,随着 GPT-5 及 o3 等新一代模型的预期发布,多模态融合与自主智能体将成为新的竞争高地。开发者应重点关注推理扩展定律的应用及高效微调技术的落地,以适应快速变化的技术生态。