Moonshot AI: Kimi Blog(资讯)60Moonshot AI 发布了关于 Muon 优化器的首次大规模训练实践技术报告。Muon 是一种基于矩阵正交化的优化器,旨在提升大模型训练效率。报告详细介绍了 Muon 在 1B 到 7B 参数模型上的训练效果,显示其在收敛速度和最终性能上优于 AdamW。该工作为大规模深度学习训练提供了新的优化器选择,尤其对计算资源有限的团队具有参考价值。论文Muon优化器大规模训练Moonshot AI优化器技术报告推荐理由:Muon 优化器有望替代 AdamW 成为大模型训练的新标配,做预训练或微调的团队值得关注其收敛速度和资源节省效果。
arXiv cs.LG@Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu精选60Pion 是一种用于大语言模型训练的新型优化器,通过左右正交变换更新权重矩阵,在整个训练过程中保持其奇异值不变。与 Adam 和 Muon 等加法优化器不同,Pion 在固定权重矩阵谱范数的同时调节其几何结构,提供了一种稳定的优化机制。实验表明,Pion 在 LLM 预训练和微调中均能作为标准优化器的稳定且有竞争力的替代方案。论文优化器大语言模型谱保持正交变换Pion推荐理由:Pion 解决了传统优化器在训练中破坏权重矩阵谱结构的问题,做 LLM 训练的研究者和工程师值得关注,尤其适合追求训练稳定性和模型质量的团队。