随着深度学习进入一个新时代,大型语言模型(LLM)的能力边界被不断拓宽,但其背后是呈指数级增长的计算和能源消耗。这种“能力越大,代价越大”的困境,正成为阻碍技术普惠的巨大壁垒。在这场性能与效率的博弈中,一种名为“混合专家”(Mixture-of-Experts, MoE)的架构脱颖而出,被誉为是打破模型规模与推理成本强耦合的“金钥匙”。它通过“条件计算”的精妙思想——即每次只激活模型参数的一小部分——在维持极低计算开销的同时,实现了模型性能的显著飞跃。

这篇于2025年7月发表的综述性论文《Mixture of Experts in Large Language Models》,由来自字节跳动、帝国理工学院、普渡大学等顶尖机构的研究者共同撰写,为我们系统性地梳理了MoE架构的理论基础、核心设计、前沿应用与未来挑战。它不仅是一份技术文献,更像是一幅指引研究者和开发者在稀疏化、模块化AI系统浪潮中航行的详尽地图。

论文地址:[2507.11181] Mixture of Experts in Large Language Models


第一部分:引言与基础 (Introduction and Fundamentals)

论文的开篇首先描绘了深度学习领域面临的“规模困境”。研究者指出,传统的大型模型是“密集”的,意味着在处理任何输入时,模型的所有参数都会被激活。这种模式导致参数量的增加与计算/内存消耗(FLOPs)的线性增长,使得模型的持续扩展变得难以为继。MoE架构正是为应对这一挑战而生,其核心思想可以追溯到早期的自适应学习系统,这些系统将模型组织为多个“专家”的集成,每个专家负责处理输入空间的特定子区域。

然而,早期的MoE因计算限制和缺乏可扩展的训练机制而影响有限。真正的突破来自于稀疏路由与现代深度网络的结合,特别是“稀疏门控网络”(Sparsely-Gated Networks)的提出,它证明了仅激活一小部分参数进行训练和推理,依然可以保持高模型精度。这不仅是参数效率的提升,更代表了一种向模块化设计的架构性转变。

Fig. 1. Timeline of mixture of experts (MoE) models development. The timeline shows key milestones in MoE architecture evolution from foundationalconcepts to modern large-scale implementations

论文通过一张详尽的“MoE模型发展时间线”(图1),生动地展示了其演进历程:

  • 2020-2021年,从概念到实践的转折点:以谷歌的GShard(6000亿参数)为标志,MoE进入了大规模部署阶段。GShard开创性地实现了自动分片和令牌级专家路由,证明了万亿参数级稀疏MoE的可行性。紧随其后的Switch Transformer 和GLaM 进一步巩固了这一范式,它们采用令牌选择门控,每次输入仅激活1-2个专家,显著降低了计算开销。
  • 2021-2022年,从NLP到多领域的拓展:Meta-MoE、CMP-MoE等开源模型的发布,点燃了社区对模块化计算的热情。同时,商业实验室也开始探索领域专用的MoE变体,如用于多语言翻译的NLLB-MoE、用于视觉任务的Swin-MoE,以及用于多模态学习的LIMOE。这标志着MoE的应用开始超越自然语言处理(NLP),向视觉、音频等更多模态渗透。
  • 2023年至今,产业化扩展与架构多样化:进入后2023时代,MoE已成为现代基础模型的核心组件。DeepSeekV3(685B)、Skywork 3.0(400B)和Arctic(482B)等模型的发布,显示了MoE在工业界的大规模应用。同时,开源社区也贡献了Jamba、Qwen1.5-MoE、Mistral-8x22B等先进模型。创新的焦点从单纯追求规模,转向了提升路由效率、负载均衡、可控性以及多任务泛化能力,如Claude 3.5 Sonnet和Llama 4所展示的那样。

第二部分:核心架构与路由机制 (Core Architectures and Routing Mechanisms)

这是论文的技术核心章节,深入剖析了MoE模型的内部工作原理。作者首先通过一张“MoE系统综合分类图”(图2)为读者构建了宏观认知,涵盖了从语言模型到应用场景、从训练策略到挑战展望的七大维度。

Fig. 2. A comprehensive taxonomy of Mixture of Experts (MoE) models, organizing methodologies into seven key categories: language models, multimodalmodels, architectural innovations, training strategies, routing mechanisms, application scenarios, and challenges.

核心概念与数学原理
一个MoE层由N个专家网络(E₁,…, Eₙ)和一个门控网络(Gating Network)g(x)组成。其核心在于,对于输入x,门控网络会选择一个包含k个专家的稀疏子集(k远小于N),最终的输出是这k个专家输出的加权和。

门控网络通常采用“带噪声的Top-k路由”(Noisy Top-k Routing)机制。它首先为每个专家计算一个得分,然后加入高斯噪声,最后选择得分最高的k个专家。

其中,Wg是门控网络的可学习权重。噪声的引入可以鼓励“探索”,防止模型在训练早期就锁定少数几个专家,即“专家崩溃”(expert collapse)。

关键挑战:负载均衡
MoE训练中的一个关键挑战是“专家崩溃”——少数专家处理了大部分输入,而其他专家则被闲置。为解决此问题,研究者引入了“负载均衡损失”(load-balancing objective)。该损失项会惩罚专家使用不均的情况。

其中,fᵢ是分配给专家i的令牌(token)比例,Pᵢ是专家i的平均门控概率。这个辅助损失项促进了资源(专家)的均匀利用,但其权重α的选择是一个需要权衡的开放问题:过强的均衡约束可能会损害专家的特化能力。

高级架构变体

解锁万亿参数的奥秘:大语言模型中的混合专家(MoE)架构
为了提升专家多样性和效率,研究者设计了多种高级架构:

Fig. 3. A brief illustration of sparsely gated Mixture of Experts (MoE) architecture on decoder only transformer. In this figure, the top-k routingmechanism is configured with k=2, meaning the gating function selects the two highest-scoring FFN experts for each token

  • 正交MoE (Orthogonal MoE, OMoE):通过一个正则化项来惩罚不同专家权重向量之间的相似性(即强制它们正交),从而鼓励专家学习不同的功能。
  • 参数高效微调 (Parameter Efficient Tuning, PET):通过仅更新专家特定的轻量级组件(如LoRA适配器),可以在冻结大部分参数的情况下高效微调MoE模型,大大降低了训练成本。
  • 分层MoE (Hierarchical MoE, H-MoE):引入两阶段路由过程,一个粗粒度的门控首先选择一个“超级专家”组,然后一个细粒度的门控在组内选择具体专家,这使得模型能支持更大规模的专家池。

路由策略:令牌选择 vs. 专家选择 (Token Choice vs. Expert Choice)
论文详细对比了两种根本不同的路由范式(图4):

  • 令牌选择 (Token Choice):这是主流方式。每个输入令牌独立地根据自己的门控分数选择最适合自己的k个专家。例如,句子中的“we”可能选择专家1和3,而“love”可能选择专家2和4。
  • 专家选择 (Expert Choice):控制流发生反转。每个专家根据固定的计算预算(容量),从整个输入序列中选择自己最“感兴趣”的Top-B个令牌进行处理。例如,专家1可能选择处理“we, love, to, study”,而专家2处理“quiet, library”。这种方式改善了专家的利用率和负载均衡,特别适用于视觉或结构化输入任务。

此外,论文还探讨了学习路由 vs. 固定路由的争议。令人惊讶的是,研究表明,随机初始化的固定路由器有时能达到与可训练路由器相当甚至更好的性能,这挑战了“路由必须是学习的”这一传统认知。


第三部分:元学习与知识迁移 (Meta-Learning and Knowledge Transfer)

本章节探讨了如何让MoE模型“学会学习”,即如何跨不同领域和任务快速适应并迁移知识。

  • 分层元学习与MixER:为了处理嵌套的动态系统,MixER模型 对传统MoE层进行了增强。它在路由时不仅考虑输入x,还引入了一个额外的“上下文向量ξ”(如图5所示)。这种设计使得路由决策能感知更广泛的上下文信息,并通过类似K-means的离散选择方式替代了传统的softmax加权,提高了在特定任务上的性能。
  • 面向领域自适应的元蒸馏 (Meta-Distillation):Meta-DMoE框架 提出了一种新颖的测试时自适应方法。它首先在多个源领域上预训练一组领域专家,然后在面对新任务时,通过一个基于Transformer的聚合器来智能结合这些专家的预测,以此“指导”一个轻量级学生模型的学习。这种方法在领域标签未知或训练统一模型效果不佳时,能有效提升泛化能力。
  • 从稀疏到稠密的知识迁移:一个核心问题是如何将庞大稀疏MoE模型的知识“压缩”到一个更小、更易于部署的稠密模型中。研究者提出了一种多教师蒸馏策略,即让多个专家模型共同指导一个学生模型(OneS)。实验表明,这种方法效果显著,例如,在ImageNet上,学生模型仅用15M参数就保留了MoE模型61.7%的性能优势;在NLP任务上则保留了88.2%的优势,并实现了3.7倍的推理加速。
  • 专家间的相互蒸馏 (Mutual Distillation):为解决单个专家因训练数据受限而导致的“视野狭窄”问题,MoDE框架 引入了专家间的相互蒸馏机制。每个专家不仅从数据中学习,还从其他专家的输出中学习,从而共享知识,增强了对任务的整体感知能力。

第四部分:应用与领域特定模型 (Applications and Domain-Specific Models)

这一部分展示了MoE架构在各个真实世界场景中的强大应用潜力。

  • 推荐系统与搜索:在处理多领域、多任务的个性化推荐时,传统模型难以平衡领域特异性和知识共享。为此,M30E 和 AESM2 等框架被提出。以AESM2为例(图6),它通过一个共享的嵌入层处理输入特征,然后通过堆叠的多场景层和多任务塔进行处理。其分层路由机制能自动在场景和任务级别选择专家,实现了对知识迁移的精细控制。
  • 多模态与多任务学习:MoE能有效解决多模态模型中因共享表示而引起的任务间干扰。
    • T-REX2 在开放集目标检测任务中,通过结合文本提示(如“狗”)和视觉样本提示(一张具体的狗图片)来提升泛- T-REX2 在开放集目标检测任务中,通过结合文本提示(如“狗”)和视觉样本提示(一张具体的狗图片)来提升泛化能力。其混合提示设计(图7)通过可变形交叉注意力模块融合多模态信息,实现了对未见类别的高精度检测。
    • HyperMoE 提出了一个巧妙的“专家复用”机制。它利用一个超网络(Hypernetwork)来整合那些在当前前向传播中“未被选中”的专家的隐藏状态,生成轻量级的调制信号,并将其注入到活跃专家的输出路径中。这在不增加计算成本的情况下,隐式地实现了专家间的协作,丰富了模型的表达能力。
  • 医疗与生命科学:MoE在医疗领域的应用尤其强调准确性、模块化和可解释性。Med-MoE 和基于LoRA的医疗MoE 都是代表。论文还展望了“具身智能”(Embodied AI)在医疗中的应用,如虚拟助诊护士、手术机器人等(图8),并指出现有数据稀缺的问题。为此,Syn-Mediverse 数据集应运而生,它包含超过4.8万张超写实合成图像,为训练鲁棒的医疗视觉模型提供了基础。
  • 计算机视觉:在目标检测领域,校准专家混合(MoCaE) 框架解决了传统集成方法中因置信度未校准而导致的问题。它在融合多个检测器预测前,先根据每个检测器的经验性能对其输出进行校准,从而使COCO数据集的AP提升高达2.5个点。而在图像分类中,深度专家混合(Deep MoE) 提出了分层专家组合,早期层级的“where”专家负责空间定位,深层语义阶段的“what”专家负责内容识别,实现了模型稀疏性与细粒度表达的平衡。

第五部分:评估、挑战与未来方向 (Evaluations, Challenges and Future Directions)

论文的最后部分对MoE的现状进行了批判性反思,并指明了未来的研究方向。

评估框架与方法论
研究者指出,评估MoE模型不能只看准确率。传统的LLM基准测试(如LLM-Perf Leaderboard)并不完全适用。为此,论文介绍了一个名为
MoE-CAP 的三元评估框架(图9),它综合考量三个维度:

  1. 模型准确性 (Accuracy)
  2. 应用性能 (Performance)
  3. 部署成本 (Cost)

这个“CAP三角”揭示了三者间的内在权衡。该框架通过软硬件协同分析(分析路由稀疏性与CPU/GPU利用率的关系),生成“CAP雷达图”,为不同约束(如延迟、预算)下的架构选择提供科学依据。

核心挑战
尽管MoE取得了巨大成功,但仍面临诸多挑战:

  • 表征同质化:研究发现,即使在高性能模型中,不同专家也常常学习到几乎相同的表示,相似度得分可高达99%。这严重削弱了MoE“分而治之”的核心优势。
  • 架构集成:简单地在MoE架构中共享层(如注意力层)可能会降低性能,因为专家在接触相同的共享特征时可能会学习到冗余或冲突的表示。
  • 路由机制的必要性: learned routing是否真的必要仍然是一个开放问题,因为随机路由也能取得不错的效果。这引发了关于路由复杂性与架构简洁性之间权衡的思考。
  • 理论基础薄弱:当前大多数MoE设计依赖于实验启发式,缺乏坚实的理论基础。一个能够将专家多样性、泛化能力和模块化效率联系起来的量化框架亟待建立。

未来方向
为应对上述挑战,论文提出了几个有前景的方向:

  • 技术方法创新:利用如OMoE中的正交约束来强制专家多样化。
  • 结合反馈优化:引入强化学习技术,特别是基于人类反馈的强化学习(RLHF),来指导专家选择和调整路由策略,使其与人类偏好对齐。
  • 混合方法:将架构正则化(如正交约束)与自适应学习策略(如RLHF)相结合,有望构建更鲁棒、更具泛化能力的MoE系统。

结论 (Conclusion)

这篇论文为我们提供了一次对MoE架构全面而深刻的巡礼。它系统地回顾了MoE从理论起源到大规模应用的发展轨迹,深入分析了其核心组件、设计原则、高级变体和知识迁移机制。通过展示其在工业界和学术界的广泛应用,并坦诚地揭示了当前面临的评估、路由稳定性和专家特化等核心挑战,论文为研究人员和实践者提供了一个宝贵的资源库,必将对未来可扩展、高效率的MoE系统的发展做出重要贡献。