5月15日
5月14日
5月13日
5月12日
19:11
arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar
35
该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。
推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。
5月11日