混合专家网络 MOE 技术原理与代码实战

文章配图

一、引言

经历了大模型技术的快速发展，MoE（Mixture-of-Experts）作为核心架构之一，在 DeepSeek-v3 等大模型中展现了极低的推理成本与优异的效果。

1.1 本文侧重点

本文重点在于从代码级认识 MoE 混合专家网络技术，而非单纯讨论训练与推理细节。目标是带大家实现一个 MoE 网络，了解其构建方式，以便根据业务场景创新性地构建自己的专家网络。

1.2 技术洞察—MoE

MoE（Mixture-of-Experts）在近 7-8 年间已广泛应用于推荐系统多任务学习，以 MMoE（Google, 2018）、PLE（腾讯，2020）为基石，通过门控网络为多个专家网络加权平均，解决多目标、多场景问题。近 1-2 年间，基于 MoE 思想构建的大模型层出不穷，如 DeepSeekMoE、Mixtral 8x7B、Flan-MoE 等，通过路由网络对多个专家进行选择，提升推理效率。

二、MoE（Mixture-of-Experts，混合专家网络）

2.1 技术原理

MoE 全称为混合专家网络，主要由多个专家网络、多个任务塔、门控网络构成。核心原理如下：

样本数据输入：分别输入 num_experts 个专家网络进行推理。每个专家网络实际上是一个前馈神经网络（MLP），输入维度为 x，输出维度为 output_experts_dim。
门控网络：样本数据同时输入门控网络（也是 MLP），输出为 num_experts 个专家的概率分布，维度为 num_experts。采用 softmax 将输出归一化，各个维度加起来和为 1。
加权平均：将每个专家网络的输出，基于 gate 门控网络的 softmax 加权平均，作为 Task 的输入。Task 的输入统一维度均为 output_experts_dim。
参数更新：在每次反向传播迭代时，对 Gate 和 num_experts 个专家参数进行更新，Gate 和专家网络的参数受任务 A、B 共同影响。

文章配图

**专家网络：**样本数据分别输入 num_experts 个专家网络进行推理，每个专家网络实际上是一个前馈神经网络（MLP），输入维度为 x，输出维度为 output_experts_dim。 **门控网络：**样本数据输入门控网络，门控网络也是一个 MLP，输出为 num_experts 个 experts 专家的概率分布，维度为 num_experts（采用 softmax 将输出归一化，各个维度加起来和为 1）。 **任务网络：**将每个专家网络的输出，基于 gate 门控网络的 softmax 加权平均，作为 Task 的输入，Task 的输入统一维度均为 output_experts_dim。

2.2 技术优缺点

相较于传统的 DNN 网络，MoE 的本质是通过多个专家网络对预估任务共同决策，引入 Gate 作为专家的裁判，给每一个专家打分，判定哪个专家更加权威。（DeepSeekMoE 的 Router 与 Gate 类似，区别是 Gate 为每一个专家赋分，加权平均，Router 对专家进行选择，推理速度更快）。

**优点：**多个 DNN 专家网络投票共同决定推理结果，相较于单个 DNN 网络泛化性更好，准确率更高。Gate 网络基于多个 Task 任务进行反馈收敛，可以学到多个 Task 任务数据的平衡性。

**缺点：**朴素的 MoE 仅使用了一个 Gate 网络，虽然 Gate 网络由多个 Task 任务共同收敛学习得到，具有一定的平衡性，但对于每个 Task 的个性化能力仍然不足。（Google 针对此缺点发布了 MMoE）。底层多个专家网络均为共享专家，输入均为样本数据，参数的差异主要由初始化的不同得到，并不具备特异性。（腾讯针对此缺点发布了 PLE）。输入 Input 均为全部样本数据，学不出不同场景任务的差异性，需要在输入层对场景特征进行拆分（阿里针对此缺点发布了 ESMM）。

import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader, TensorDataset class MoEModel(nn.Module): def __init__(self, input_dim, experts_hidden1_dim, experts_hidden2_dim, output_experts_dim, task_hidden1_dim, task_hidden2_dim, output_task1_dim, output_task2_dim, gate_hidden1_dim, gate_hidden2_dim, num_experts): super(MoEModel, self).__init__() self.num_experts = num_experts self.output_experts_dim = output_experts_dim # 初始化多个专家网络 self.experts = nn.ModuleList([ nn.Sequential( nn.Linear(input_dim, experts_hidden1_dim), nn.ReLU(), nn.Linear(experts_hidden1_dim, experts_hidden2_dim), nn.ReLU(), nn.Linear(experts_hidden2_dim, output_experts_dim), nn.ReLU() ) for _ in range(num_experts) ]) # 定义任务 1 的输出层 self.task1_head = nn.Sequential( nn.Linear(output_experts_dim, task_hidden1_dim), nn.ReLU(), nn.Linear(task_hidden1_dim, task_hidden2_dim), nn.ReLU(), nn.Linear(task_hidden2_dim, output_task1_dim), nn.Sigmoid() ) # 定义任务 2 的输出层 self.task2_head = nn.Sequential( nn.Linear(output_experts_dim, task_hidden1_dim), nn.ReLU(), nn.Linear(task_hidden1_dim, task_hidden2_dim), nn.ReLU(), nn.Linear(task_hidden2_dim, output_task2_dim), nn.Sigmoid() ) # 初始化门控网络 self.gating_network = nn.Sequential( nn.Linear(input_dim, gate_hidden1_dim), nn.ReLU(), nn.Linear(gate_hidden1_dim, gate_hidden2_dim), nn.ReLU(), nn.Linear(gate_hidden2_dim, num_experts), nn.Softmax(dim=1) ) def forward(self, x): # 计算输入数据通过门控网络后的权重 gates = self.gating_network(x) batch_size, _ = x.shape task1_inputs = torch.zeros(batch_size, self.output_experts_dim) task2_inputs = torch.zeros(batch_size, self.output_experts_dim) # 计算每个专家的输出并加权求和 for i in range(self.num_experts): expert_output = self.experts[i](x) task1_inputs += expert_output * gates[:, i].unsqueeze(1) task2_inputs += expert_output * gates[:, i].unsqueeze(1) task1_outputs = self.task1_head(task1_inputs) task2_outputs = self.task2_head(task2_inputs) return task1_outputs, task2_outputs # 实例化模型对象 num_experts = 4 experts_hidden1_dim = 64 experts_hidden2_dim = 32 output_experts_dim = 16 gate_hidden1_dim = 16 gate_hidden2_dim = 8 task_hidden1_dim = 32 task_hidden2_dim = 16 output_task1_dim = 3 output_task2_dim = 2 # 构造虚拟样本数据 torch.manual_seed(42) input_dim = 10 num_samples = 1024 X_train = torch.randint(0, 2, (num_samples, input_dim)).float() y_train_task1 = torch.rand(num_samples, output_task1_dim) y_train_task2 = torch.rand(num_samples, output_task2_dim) # 创建数据加载器 train_dataset = TensorDataset(X_train, y_train_task1, y_train_task2) train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True) model = MoEModel(input_dim, experts_hidden1_dim, experts_hidden2_dim, output_experts_dim, task_hidden1_dim, task_hidden2_dim, output_task1_dim, output_task2_dim, gate_hidden1_dim, gate_hidden2_dim, num_experts) # 定义损失函数和优化器 criterion_task1 = nn.MSELoss() criterion_task2 = nn.MSELoss() optimizer = optim.Adam(model.parameters(), lr=0.001) # 训练循环 num_epochs = 100 for epoch in range(num_epochs): model.train() running_loss = 0.0 for batch_idx, (X_batch, y_task1_batch, y_task2_batch) in enumerate(train_loader): outputs_task1, outputs_task2 = model(X_batch) loss_task1 = criterion_task1(outputs_task1, y_task1_batch) loss_task2 = criterion_task2(outputs_task2, y_task2_batch) total_loss = loss_task1 + loss_task2 optimizer.zero_grad() total_loss.backward() optimizer.step() running_loss += total_loss.item() if epoch % 10 == 0: print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}') print(model) for param_tensor in model.state_dict(): print(param_tensor, "\t", model.state_dict()[param_tensor].size()) # 模型预测 model.eval() with torch.no_grad(): test_input = torch.randint(0, 2, (1, input_dim)).float() pred_task1, pred_task2 = model(test_input) print(f'一级场景预测结果：{pred_task1}') print(f'二级场景预测结果：{pred_task2}')

混合专家网络 MOE 技术原理与代码实战

一、引言

1.1 本文侧重点

1.2 技术洞察—MoE

二、MoE（Mixture-of-Experts，混合专家网络）

2.1 技术原理

2.2 技术优缺点

更多推荐文章

相关免费在线工具

2.3 业务代码实践

2.3.1 业务场景与建模

2.3.2 模型代码实现

2.3.3 模型训练与推理测试

2.3.4 打印模型结构

三、总结

更多推荐文章

相关免费在线工具

混合专家网络 MOE 技术原理与代码实战

一、引言

1.1 本文侧重点

1.2 技术洞察—MoE

二、MoE（Mixture-of-Experts，混合专家网络）

2.1 技术原理

2.2 技术优缺点

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.3 业务代码实践

2.3.1 业务场景与建模

2.3.2 模型代码实现

2.3.3 模型训练与推理测试

2.3.4 打印模型结构

三、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具