AITOP

5月15日

23:35

berryxia@berryxia

精选73

Daily Dose of Data Science 通过视觉图解清晰对比了 Transformer 和 Mixture of Experts（MoE）的核心差异。MoE 将 Transformer 中的单个前馈网络拆分为多个小专家网络，推理时仅激活部分专家，虽参数更多但计算更快。模型通过 Router（多分类器）为每个 token 选择 top-K 专家，但训练中面临“专家过选”和“负载不均”两大问题。前者通过加噪声和屏蔽非 top-K logit 解决，后者通过设置专家容量上限并自动转交 token 来平衡。Mixtral 8x7B 和 Llama 4 是典型 MoE 模型。

AI模型 Transformer MoE 路由机制负载均衡 Mixtral 8x7B

推荐理由：想搞懂 MoE 为什么又快又强，这篇视觉解释把路由和负载均衡的坑讲透了，做模型训练或推理优化的开发者值得一看。

04:54

Andrew Ng@AndrewYNg

53

Andrew Ng 推出新课程《Transformers in Practice》，与 AMD 合作，由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角，帮助理解其行为、诊断推理缓慢等问题，并做出更明智的部署决策。课程包含交互式可视化，而非纯视频，让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

AI模型 Transformer LLM 课程推理优化 AMD

推荐理由：想真正理解 LLM 内部机制、诊断推理问题的开发者，这门课能帮你从黑盒用户变成懂原理的实践者，建议直接报名。