跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

大模型理论基础:MoE 与 RAG 架构解析

综述由AI生成详细讲解了大型语言模型中的两大核心技术架构:混合专家模型(MoE)与检索增强生成(RAG)。MoE 部分阐述了其起源、稀疏性设计、负载均衡机制以及与 Transformer 的结合方式,重点分析了 Gshard 的实现策略。RAG 部分涵盖了索引构建、检索匹配、生成响应的完整流程,并深入探讨了检索质量、幻觉、信息过时等常见问题及其改进方案,包括预检索优化、重排序和提示压缩等技术手段。文章旨在帮助读者深入理解大模型的理论基础与工程实践。

清酒独酌发布于 2025/2/7更新于 2026/6/219 浏览
大模型理论基础:MoE 与 RAG 架构解析

前言

在当前信息时代,大型语言模型(Large Language Models, LLMs)的发展速度和影响力日益显著。随着技术进步,我们见证了从基本的 Transformer 架构到更为复杂和高效的模型架构的演进,如混合专家模型(Mixture of Experts, MoE)和检索增强生成(Retrieval-Augmented Generation, RAG)。这些进步不仅推动了人工智能领域的边界,也对理解和应用这些技术提出了新的要求。

MoE 架构示意图

随着时间的推移,大模型的研究和应用领域继续迅速发展,促使我们对已有知识的理解进行更新和深化。因此,本课程笔记旨在开源学习的背景下,基于学习成果,进一步讲解和深化对 MoE 和 RAG 内容的理解。这份笔记不仅反映了当前大模型研究的最新动态,也体现了深入学习和掌握这些复杂架构的重要性。

通过本文档,读者将能够获得对 MoE 和 RAG 架构更为深入的理解,掌握它们的设计原理、优势及应用场景。我们希望这份笔记能够为广大学习者提供价值,促进对大模型理论基础知识的深入学习和应用。

MoE 与 RAG 概述

混合专家模型 (Mixture of Experts, MoE)

混合专家模型创建了一组专家网络,每个输入仅激活一小部分专家。可以将其想象为一个由不同背景专家组成的顾问委员会(例如历史、数学、科学),针对特定问题,系统会选择最合适的几位专家进行回答。

检索增强生成 (Retrieval-Augmented Generation, RAG)

RAG 的核心思想是存储原始数据,给定一个新的输入时,先检索存储库的相关部分,并使用这些信息来辅助预测输出。这类似于开卷考试,根据题目翻阅参考资料,找到相关内容并依此作答,从而减少模型幻觉并提升知识时效性。

MoE 详解

理念起源

MoE 的理念起源于 1991 年的论文《Adaptive Mixture of Local Experts》。考虑到多任务场景下训练同一模型,在某场景更新权重时会影响到模型对其他场景的表现,干扰效应强,会造成学习缓慢和泛化不良。在这种情况下,给定训练样本,如果能够事先知道其对应于哪个子任务,那么可以使用由几个不同的'专家'网络组成的系统以及使用一个门控网络来决定每个训练样本应该使用哪个专家。如果输出不正确,权重变化将定位到所选专家(和门控网络),不会干扰到其他专家在其他情况下的权重。

专家是局部的(对应英文 local),一方面专家之间的权重解耦,另一方面每个专家只处理输入向量空间的一个小局部区域。作者通过对误差函数的巧妙设计,使得给定训练样本,局部专家的目标不会受到其他专家权重的直接影响,但仍存在一些间接耦合。如果采用梯度下降法训练门控网络和局部专家,则系统倾向于每个训练样本只分配一个专家。

MoE 局部专家结构

稀疏性与条件计算

在 2010 至 2015 年间,条件计算领域的研究为 MoE 的后续发展做出了显著贡献。条件计算会基于输入 token 动态激活或停用网络组件,在理论上它能够在不增加计算量的情况下显著增加模型容量,但实践中存在重大的算法和性能挑战。面对这些挑战,Shazeer 等人提出引入稀疏门控 MoE 层。

在 MoE 层中有很多专家网络以及一个可训练的门控网络,每个专家都是一个简单的前馈神经网络,门控网络选择专家的稀疏组合来处理每个输入。

稀疏门控 MoE 结构

基于 Softmax 门控网络,稀疏门控网络的计算中添加了稀疏性以减少计算量,添加了噪声项以有助于负载平衡。具体而言,在 Softmax 之前,添加可调高斯噪声,然后仅保留前 k 个值,其余设置为零。这种机制确保了只有 Top-K 个专家被激活,从而控制了推理时的计算成本。

负载均衡问题

如果 token 总是被发送到少数几个受欢迎的专家,那么训练效率将会降低,也会导致负载不平衡。一方面,前期表现好的专家会更容易被门控网络选择,导致最终只有少数的几个专家真正起作用,专家不平衡;另一方面,即使保证了专家们的同等重要性,它们可能仍会收到数量非常不同的样本,例如,一位专家可能会收到权重较大的几个样本,而另一位专家可能会收到许多权重较小的样本,这可能会导致分布式设备出现内存和性能问题。Shazeer 等考虑使用辅助损失来缓解这一问题。

对于专家不平衡问题,将'专家相对于一批训练样本的重要性'定义为'该批所有样本的门控值之和',计算此项的变异系数,乘上可手动调整的系数得到辅助损失项,该项附加损失鼓励所有专家都具有同等的重要性。

对于专家接收训练样本数量不同问题,定义平滑估计表示在批量中分配给每个专家的样本数量,可通过该估计反向传播梯度,定义为不为零的概率(给定元素新的噪声随机选择但在其他元素上保留已采样的噪声选择)。

MoE 与 Transformer 的结合

Transformer 是 NLP 领域的大杀器,其前馈层对于每个 token 是独立的。Gshard 将 Transformer 中的原始前馈层转变为 MoE 前馈层,MoE 前馈层每隔一个 block 替换一次 Transformer 前馈层,结构如下图(解码器类似)。我们可以看到,标准 Transformer 的编码器是一堆自注意力层和前馈层,交错着残差连接和层归一化;通过用 MoE 层隔 block 替换前馈层,得到了 MoE Transformer Encoder 的模型结构;当扩展到多个设备时,MoE 层被跨设备分片,而所有其他层都会被复制。

MoE Transformer 结构

Gshard 使用 top-2 专家近似门控函数,由门控网络计算,每个 token 被分配到至多两个专家,其对应的非零权重。

Top-2 专家近似门控函数逻辑:

  1. 计算第一个专家:选择概率最高的专家。
  2. 计算第二个专家:选择概率次高的专家。
  3. 始终保留第一个专家,并随机保留第二个专家。

设 $P_i$ 为第 $i$ 个专家的概率。在概率为 $p$ 的情况下,选择第二个专家。对于其他专家,概率设为 0。

为保持负载平衡和规模高效,Gshard 还引入如下方法:

  • 专家容量:强制要求每位专家处理的 token 数低于某一统一阈值。如果 token 所选择的两个专家都已超出其容量,则该 token 通过残差连接传递到下一层。
  • 本地组调度:将一个训练批次的所有 token 均分成多组,所有组独立并行处理,在组级别保证专家容量。
  • 辅助损失:尽可能使得每个专家被分配到的 token 数接近一致。
  • 随机路由:始终选择第 1 个专家,以正比于概率选择第 2 个专家。如果概率非常小,可将其忽略以节省专家容量。

RAG 详解

基于检索的模型工作流程

基于检索的模型的工作流程通常包含三个步骤:

  1. 建立存储库 $D$,它是一组序列(通常是文档或段落)的集合。
  2. 基于输入 $Q$,检索相关序列 $D_{rel}$。
  3. 给定检索序列和输入 $Q$,生成输出 $A$。

在大模型时代,RAG 工作流程可简要概括为三个关键步骤:

  1. 将语料库划分为离散的块并构建向量索引。
  2. 根据查询和索引块的向量相似性来识别和检索块。
  3. 模型根据查询以及检索块中收集到的上下文信息来生成响应。

RAG 基本流程

核心模块详解

Indexing(索引)

清洗和提取原始数据,将各种文件格式(如 PDF、HTML、Word 和 Markdown)转换为标准化的纯文本。为适应语言模型的上下文窗口限制,需要将文本分割成更小、更易于管理的块(Chunking)。这些块随后通过嵌入模型(Embedding Model)转换为向量表示。最后,创建索引,将这些文本块及其向量嵌入存储为键值对,从而实现高效且可扩展的搜索功能。常用的向量数据库包括 FAISS、Milvus 等。

Retrieval(检索)

在收到用户查询后,使用与索引阶段相同的嵌入模型,将查询转换为向量表示,然后计算查询向量与'索引语料库'中的向量块之间的相似性分数(通常为余弦相似度)。系统会优先处理并检索与查询相似度最高的前 K 个块。这些块随后被用作用户查询的上下文。

Generation(生成)

查询和选定的文档被合成一个 prompt,输入 LLM 生成回答。在正在进行的对话中,任何现有的对话历史记录都可以集成到 prompt 中,使模型能够有效地进行多轮对话交互。

潜在问题与挑战

尽管 RAG 效果显著,但也面临诸多挑战:

  • 检索质量:可能存在精度低、检索到的块未对齐以及幻觉等潜在问题,还可能会出现低召回率,无法检索到所有相关块,从而影响 LLM 生成综合响应。
  • 过时信息:过时的信息可能会产生不准确的检索结果,会进一步加剧该问题。
  • 生成质量:响应生成质量存在幻觉挑战,即模型没有基于所检索到的上下文来生成答案,以及模型输出可能存在潜在毒性或偏差问题。
  • 上下文融合:增强过程的挑战在于能否有效地将检索到的段落中的上下文与当前生成任务相结合,这可能导致脱节或不连贯的输出。
  • 冗余重复:生成内容也可能存在冗余和重复,尤其是当检索到的多个段落包含相似的信息时。
  • 风格一致性:如何衡量检索到的内容对生成任务的重要性和相关性、如何调和写作风格和语气的差异以确保输出的一致性也很重要。
  • 过度依赖:存在生成模型过度依赖增强信息的风险,这可能导致输出仅重复检索到的内容,而没有提供新的价值或综合信息。

改进方案

针对上述问题,也存在一些改进方案:

Pre-Retrieval Process(检索前优化)

优化数据索引,提高被索引内容的质量。这涉及的主要策略有:

  • 增强数据粒度:旨在提升文本标准性、一致性、事实准确性和上下文的丰富性。这包括删除不相关的信息、消除实体和术语中的歧义、确认事实准确性、维护上下文以及更新过时的文档。
  • 优化索引结构:包括调整块的大小以捕获相关上下文,跨多个索引路径进行查询,以及通过利用图数据索引中节点之间的关系来合并图结构中的信息以捕获相关上下文。
  • 添加元数据:涉及将引用的元数据(如日期和用途)集成到块中以进行筛选,合并元数据(如参考文献的章节和小节)以提高检索效率。
  • 对齐优化:通过在文档中引入'假设问题'来解决文档之间的对齐问题和差异。
  • 混合检索:是指结合基于关键词的传统搜索(tf-idf 或 BM25)和'现代'的语义搜索或向量搜索进而生成检索结果。
Retrieval(检索阶段优化)

在检索阶段,重点是计算查询和索引块之间的相似性来识别上下文。嵌入模型是此过程的核心,可以考虑微调嵌入模型或者使用动态嵌入以适应特定领域的数据分布。

Post-Retrieval Process(检索后优化)

检索到有价值的上下文后,需要将其与查询合并作为 LLM 的输入。一次性向 LLM 提交所有相关文档可能会超出上下文窗口限制、引入噪音并阻碍对关键信息的关注。要解决这些问题,需要对检索到的内容进行额外处理:

  • Re-Ranking(重排序):对检索到的信息进行重新排序以重新定位最相关的内容。通常使用 Cross-Encoder 模型进行精细化的相关性打分。
  • Prompt Compression(提示压缩):压缩不相关的上下文,突出显示关键段落,并减少整体上下文长度,以降低 Token 消耗并聚焦核心信息。

随着 RAG 领域的发展和行业需求的不断挖掘,模块化的 RAG 结构提供了更大的多功能性和灵活性。未来的发展方向将更加注重检索与生成的端到端优化,以及多模态数据的融合处理。

总结

MoE 和 RAG 代表了当前大模型架构优化的两个重要方向。MoE 通过稀疏激活机制在保持计算效率的同时扩展了模型容量,适合处理大规模参数需求;RAG 则通过外部知识库的引入解决了大模型的知识截止和幻觉问题,增强了系统的可解释性和准确性。理解这两者的原理及实现细节,对于构建高效、可靠的企业级 AI 应用至关重要。

目录

  1. 前言
  2. MoE 与 RAG 概述
  3. 混合专家模型 (Mixture of Experts, MoE)
  4. 检索增强生成 (Retrieval-Augmented Generation, RAG)
  5. MoE 详解
  6. 理念起源
  7. 稀疏性与条件计算
  8. 负载均衡问题
  9. MoE 与 Transformer 的结合
  10. RAG 详解
  11. 基于检索的模型工作流程
  12. 核心模块详解
  13. Indexing(索引)
  14. Retrieval(检索)
  15. Generation(生成)
  16. 潜在问题与挑战
  17. 改进方案
  18. Pre-Retrieval Process(检索前优化)
  19. Retrieval(检索阶段优化)
  20. Post-Retrieval Process(检索后优化)
  21. 总结
  • 💰 8折买阿里云服务器限时8折了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 🤖 一键搭建Deepseek满血版了解详情
  • 一键打造专属AI 智能体了解详情
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 专利检索与 AI 辅助工具资源汇总
  • AIGC 产品经理转行核心能力与岗位要求分析
  • 计算机视觉高级应用与前沿技术发展
  • ModelSim 仿真软件安装与使用指南
  • 数据结构:顺序表与链表常用算法解析
  • SkyWalking 多语言探针现状:.NET、C++ 与 Lua 实践指南
  • CentOS 7 Yum 源配置失败排查与修复指南
  • 前端可访问性:别让网站成为障碍
  • AI 提示工程实战:如何与大模型高效对话
  • 循环神经网络(RNN)与序列数据处理实战
  • OSCP 密码攻击实践:获取并破解 Net-NTLMv2 哈希(下)
  • 滑动窗口算法核心思路与经典例题解析
  • 天马 G 前端在安卓掌机上的实战
  • Redis 与 Memcached 核心区别及性能分析
  • Linux du 命令详解:精准探查文件和目录的磁盘占用
  • C++ STL 常用容器详解:Vector、Pair 到 Map 实战
  • 前端实战:如何让用户回到上次阅读的位置
  • OpenClaw 及 16 款 AI Agent 工具选型指南
  • C++ 模板初阶:泛型编程基础与实践
  • Gemini in Chrome 功能介绍与使用配置指南

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online