AITOP

arXiv cs.AI@Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov, Yuxin Chen, Jian Jiao, Jiecao Yu, Buyun Zhang, Tongyi Tang, Xiaohan Wei, Yanli Zhao, Zeliang Chen, Yuchen Hao, Venkatesh Ranganathan, Sandeep Parab, Yantao Yao, Maxim Naumov, Chunzhi Yang, Shen Li, Ellie Wen, Wenlin Chen, Santanu Kolay, Chunqiang Tang

LoKA（低精度内核应用）框架解决了FP8低精度计算在大型推荐模型（LRM）中的困境。由于LRM对数值敏感且包含大量小矩阵乘法和归一化操作，直接应用FP8会降低模型质量并增加训练时间。LoKA通过系统-模型协同设计，包含三个核心组件：LoKA Probe在线评估每层精度误差，LoKA Mods提供提升数值稳定性的模型修改，LoKA Dispatch动态选择最快且安全的FP8内核。该方法使FP8在推荐模型中实用化，同时保障精度和训练效率。

论文低精度训练 FP8 推荐模型系统-模型协同设计

推荐理由：该研究为推荐系统领域提供了实用的低精度训练方案，解决了FP8在数值敏感场景下的适配难题，对工业级推荐模型的训练加速具有实际参考价值。