2024 LLM 领域核心术语盘点：从 MoE 架构到 o1 推理范式

综述由AI生成盘点了 2024 年大语言模型领域的关键技术术语，涵盖 MoE 混合专家架构、Agent 智能体应用、Sora 视频生成、GraphRAG 检索增强生成以及 GPT-4o 多模态模型。重点分析了 o1 推理模型带来的训练时与测试时计算量变化，详细解释了 ORM、PRM、PPO、DPO、GRPO 等强化学习与偏好优化算法的原理与应用场景。文章梳理了 Self-Play、Self-Rewarding 等自我进化机制，并探讨了 RFT 与 ReFT 在模型微调中的区别，为理解当前 LLM 技术演进提供了清晰的术语索引与技术背景。

zhang发布于 2025/2/6更新于 2026/6/320 浏览

2024 年是大语言模型技术快速演进的一年，涌现了大量关键术语与架构创新。本文对当年及近期的核心技术词汇进行了系统梳理，涵盖模型架构、智能体应用、多模态生成、检索增强及强化学习优化等多个维度。

MoE (Mixture-of-Experts)

全称：混合专家模型中文：混合专家（模型）出处：最早概念由 Hinton 在 1991 年提出，2023 年 GPT-4 发布后引发关注，随后 Mistral AI 开源 Mixtral-8x7B，DeepSeek 推出 DeepSeekMoE 及 DeepSeek-V3。技术解析：MoE 通过稀疏激活机制，在保持总参数量巨大的同时降低计算成本。每次推理仅激活部分专家网络，显著提升了模型的上下文处理能力和训练效率。行业观察：尽管初期被寄予厚望，但 2024 年中后期推理模型成为焦点，不过 V3 等后续版本仍证明了 MoE 在大规模模型中的价值。

Agentic (Agent/Agentic)

中文：智能体化出处：OpenAI 在 2023 年博客中定义 LLM Agent，2023 年底提出 Agentic AI 治理实践。技术解析：Agent 指具备感知、规划、行动能力的自主系统。当前主流实现多为 Workflow + Prompt 的组合，旨在让模型能够调用工具完成复杂任务。行业观察：虽然 2024 年应用落地声量未达预期，但 Anthropic 等机构强调构建有效 Agent 的重要性，未来将向更复杂的自主协作方向发展。

Sora

出处：2024 年 2 月 OpenAI 发布的视频生成模型。相关竞品：快手可灵、智谱清影、MiniMax video-01、字节 PixelDance 和 Seaweed 等。技术解析：Sora 展示了基于扩散模型的视频生成能力，实现了长视频的高质量连贯性生成。其背后涉及复杂的时空注意力机制。行业观察：相比年初宣传，实际体验仍有差距，但标志着视频生成技术的重大突破，预计 2025 年将逐步开放更多功能。

GraphRAG

中文：图检索增强生成出处：微软 2024 年 4 月提出《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》。技术解析：传统 RAG 基于向量相似度检索，GraphRAG 引入知识图谱结构，利用图遍历增强全局信息理解，解决长文档摘要和复杂查询的幻觉问题。行业观察：RAG 已成为解决 LLM 知识时效性和幻觉的关键范式，Graph 方式提供了新的结构化检索路径。

GPT-4o

出处：2024 年 5 月 OpenAI 发布的多模态模型。相关竞品：阶跃 Step-1.5V、Meta Llama 3.2、Mistral Pixtral 12B、阿里 Qwen2-VL、百川 Baichuan-Omni。技术解析：4o 实现了文本、音频、视觉的端到端统一处理，降低了延迟并提升了交互自然度。行业观察：多模态是 AGI 的必经之路，但目前文本仍是核心交互载体，多模态能力仍在完善中。

o1

出处：2024 年 9 月 OpenAI 发布的推理模型。相关竞品：阿里 QwQ-32B-Preview、DeepSeek-R1-Lite、智谱 GLM-Zero-Preview。技术解析：o1 代表了推理能力的质变，通过增加测试时计算量（Test-Time Compute）来换取更高的逻辑推理准确率。行业观察：被视为 2024 年大模型领域的里程碑，开启了'思考时间'换性能的新阶段。

ORM & PRM

全称：Outcome-supervised Reward Model / Process-supervised Reward Model 中文：结果监督奖励模型 / 过程监督奖励模型出处：OpenAI 2023 年 5 月提出验证步骤方法。技术解析：ORM 仅评估最终答案的正确性，PRM 则评估推理过程中每一步的质量。o1 的核心改进之一在于引入了过程监督，使模型能自我纠错。行业观察：开源社区正在尝试复现 PRM 效果，但高质量标注数据仍是瓶颈。

Train-time Compute & Test-time Compute

中文：训练时计算量 / 测试时计算量出处：OpenAI 2024 年 9 月博客《Learning to reason with LLMs》。技术解析：训练时计算量指模型训练阶段的算力投入，测试时计算量指推理阶段允许的思考时间或采样次数。两者均影响最终性能。行业观察：延长思考时间能显著提升复杂任务表现，但也增加了推理成本。

Inference Scaling Laws

中文：推理扩展定律出处：基于 o1 发布后的实验分析，如《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving》。技术解析：描述了推理计算量与模型性能之间的幂律关系，表明增加推理资源可带来收益。行业观察：标志着 LLM 发展从单纯扩大参数转向优化推理策略。

MCTS (Monte Carlo Tree Search)

中文：蒙特卡洛树搜索出处：2006 年《Bandit based Monte - Carlo Planning》。技术解析：一种启发式搜索算法，常用于决策过程。在 o1 等推理模型中，可能用于探索解题路径。行业观察：结合 RL 的搜索策略正成为提升推理能力的重要手段。

2024 LLM 领域核心术语盘点：从 MoE 架构到 o1 推理范式

MoE (Mixture-of-Experts)

Agentic (Agent/Agentic)

Sora

GraphRAG

GPT-4o

o1

ORM & PRM

Train-time Compute & Test-time Compute

Inference Scaling Laws

MCTS (Monte Carlo Tree Search)

更多推荐文章

相关免费在线工具

Self-Play, Self-Rewarding, Self-Correct, Self-Refine, Self-Reflection, Self-Consistency

RFT & ReFT

PPO, DPO, GRPO, ORPO, KTO, SimPO, RLOO

结语

更多推荐文章

相关免费在线工具

2024 LLM 领域核心术语盘点：从 MoE 架构到 o1 推理范式

MoE (Mixture-of-Experts)

Agentic (Agent/Agentic)

Sora

GraphRAG

GPT-4o

o1

ORM & PRM

Train-time Compute & Test-time Compute

Inference Scaling Laws

MCTS (Monte Carlo Tree Search)

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

Self-Play, Self-Rewarding, Self-Correct, Self-Refine, Self-Reflection, Self-Consistency

RFT & ReFT

PPO, DPO, GRPO, ORPO, KTO, SimPO, RLOO

结语

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具