AITOP

5月13日

19:12

arXiv cs.LG@Sagi Ahrac, Noya Hochwald, Mor Geva

精选65

稀疏混合专家模型（SMoE）在扩展语言模型时面临路由崩溃和负载均衡损失导致专业化下降的问题。本文揭示了路由器与其对应专家之间的几何耦合机制：对于给定token，所选专家的路由器权重和专家权重沿相同输入方向接收梯度，仅标量系数不同，因此匹配的路由器-专家方向累积相同的路由历史。实验表明，从零训练的1B SMoE中，更高的路由器分数预测更强的专家神经元激活，路由决策在所选专家内部被镜像。辅助负载均衡损失会破坏这种几何结构，使不同路由器方向相似度增加近三倍。最后，作者提出无参数在线K-Means路由器，通过维护专家隐藏状态运行平均值并基于余弦相似度分配token，在最低负载不平衡和适度困惑度增加下验证了几何耦合对有效路由的核心作用。

论文稀疏MoE 路由机制几何耦合负载均衡在线K-Means

推荐理由：做MoE模型训练或路由优化的研究者，这篇论文解释了路由崩溃和负载均衡损失的底层机制，看完会对如何设计更有效的路由策略有直接启发。