找找AI 原创出品 技术

混合专家模型的路由策略演进:从Sparse MoE到Soft MoE

原创标识

技术领域:模型架构 / 稀疏计算JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

MoE(Mixture of Experts)通过条件计算大幅扩展模型参数而不成比例增加计算量。路由(Router)负责将每个token分配给最适合的专家,其设计直接影响模型性能和负载均衡。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 传统稀疏门控(Sparse MoE):每个token通过线性门控网络得到所有专家的logits,经softmax后保留Top-K个专家(通常K=1或2),其余专家输出置零。前向计算只激活被选中的专家。问题在于:专家负载可能严重不均——少数专家获得大量token,多数专家未被充分训练。解决方法是引入负载均衡损失:JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    L_balance = α * Σ_i (f_i * P_i)

    其中f_i是分配给专家i的token比例,P_i是门控平均概率。在训练中动态调整α(如从0.01线性衰减到0.001)。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 专家容量与丢弃机制:为控制每个专家处理的token上限,设置capacity factor。超出容量的token要么丢弃(跳过该token的专家计算,直接残差连接),要么溢出到下一层或用Noisy Top-K门控随机重分配。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • Soft MoE:彻底改变路由方式。不再为每个token独立选择专家,而是将所有token视为一个整体,通过可学习的参数矩阵 Φ 将输入token序列 X(形状 T × D)映射到一组slot(槽位),每个slot送入一个专家,专家输出后再加权组合回token。数学形式:JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

     
    slot_s = softmax( X · Φ_s )^T · X
    output = Σ_s ( expert_s(slot_s) · softmax( X · Ψ_s ) )

    这种方法天然保证负载均衡(每个专家正好处理固定数量的slot),且计算密集,适合GPU。缺点是slot数量是超参数,通常设为token数的1~2倍。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • 路由与量化联合优化:低位宽MoE推理时,路由的logits对量化敏感。解决方案是对门控网络使用FP16(或更高精度),而对专家权重使用INT4/三值量化,因为专家的精度损失对最终结果影响远小于路由决策错误。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

  • MoE的训练稳定性:专家之间可能发生表示坍缩——不同专家学到相似的变换。引入带噪声的Top-K门控(在logits上加高斯噪声),强制模型探索不同专家组合;或使用辅助的“专家差异性损失”,惩罚专家输出之间的余弦相似度。JVj找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

AI问答

国内AI最近犯过什么事儿吗?
说出来你可能不信,已经有人因为AI亏钱而在法院起诉了。
听说AI又在安全上捅娄子了?
这几天的安全新闻一个比一个惊悚。
有没有什么牛X的新模型发布?
看几个硬指标:编程测试SWE-Bench Pro,它直接干到了69.2% ,比GPT-5.5的58.6%高出10个百分点;金融分析测试也是53.9% ,同样领先所有对手。更狠的是,不但性能上去了,快速模式的速度快了一倍多,成本直接砍到原来的三分之一。
不听不听,我就想知道OpenAI权斗和马斯克互撕的大结局是啥?
前CTO Mira Murati出庭作证,对着奥特曼就是一顿锤。她直接在法庭上说,奥特曼在模型安全审批上误导过她,还说此人有个“大招”——给不同高管传递不同版本的事实,让大家谁都没法掌握全貌,决策权永远回到他自己手里。这不是外人瞎编,是亲信在法庭上当着全世界说的。
AI安全最近又出新问题了?听说有人用AI换脸直接盗号了?
对,而且是真事儿,5月30号央视刚曝出来的。一家国内公司好好的账号突然自己发了一篇“即将停更”的公告,后台密码也改了,连法人信息都被人篡改了。最后查出来,是有人伪造了以假乱真的动态“AI人脸”视频,直接骗过了平台的身份验证系统,顺利登陆进去了。
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
查看更多问答 →