MoE (Mixture of Experts) 混合专家

Sue Dickinson

2025-08-30

Learning

MoE

Mixture of Experts（专家混合模型） 是一类模块化神经网络结构，其核心思想是：

💡 直观类比：就像一个公司里有很多专家，遇到不同的问题，先由秘书（gating network）判断该找谁，最后综合专家意见得到结果。

功能：接收输入后，输出一个分布（类似 softmax 权重），表示每个专家的重要性
常见策略：
- Soft gating：对所有专家分配权重（计算量大）
- Sparse gating：只选择前 k 个专家（Top-k），大大降低计算量（这也是现代 MoE 的常用方法）

参数规模大，但计算开销小

提高模型表达能力

可扩展性好

负载均衡 (Load Balancing): 门控网络可能会偏好某几个专家，导致部分专家很少被训练到。解决方法：引入负载均衡损失函数（如 Google 的 Switch Transformer 提出的正则化项）。
通信开销大 (在分布式训练中): 因为不同专家可能在不同 GPU 上，输入需要路由到对应的 GPU，容易造成通信瓶颈。
训练稳定性: 门控网络训练不当时，可能出现梯度消失或专家不收敛的问题。

Shazeer et al. (2017), “Outrageously Large Neural Networks”
提出最早的大规模稀疏 MoE 模型。
Switch Transformer (Google, 2021)
使用 Top-1 门控（每个输入只选一个专家），极大提升了训练效率。证明了稀疏专家机制可以扩展到万亿参数级别。
GLaM (Google, 2021) Generalist Language Model，基于 MoE 的大规模语言模型，计算量比 GPT-3 少，但效果更好。
DeepSpeed MoE (Microsoft) 工程优化的 MoE 框架，广泛用于分布式训练。

🌐 工程框架

MoE 是一种稀疏激活的大模型架构，通过专家分工+门控选择，大幅提升模型容量和泛化能力，同时保持计算开销可控。它在大语言模型（LLM）和扩展到万亿参数级别的训练中应用非常广泛。