arXiv cs.AI@Yuxiao Yang, Xiaoyun Wang, Weitong Zhang精选65本文研究了在线策略自蒸馏(OPSD)方法,即语言模型通过在其自身生成的轨迹上蒸馏特权教师分布来提升推理能力。作者发现OPSD存在一个常见但常被忽视的问题:教师响应中的自我反思偏差和模板会导致token级监督校准错误。为此,他们提出OGLS-SD框架,利用可验证的结果奖励对比成功与失败的在线轨迹,并通过logit引导校准教师logits。该方法结合结果级正确性与密集的token级引导,在多个基准上稳定了自蒸馏过程并提升了推理性能。论文自蒸馏推理模型logit校准结果引导LLM推荐理由:如果你在做LLM推理优化或自蒸馏训练,OGLS-SD解决了教师-学生分布不匹配的痛点,用结果奖励校准logits的思路直接可复用,值得仔细看方法细节。
AK@_akhaliq65该研究提出了一种名为“叛逆学生”的新方法,通过反转教师模型的信号来训练学生模型,从而在推理中探索更多可能性。该方法结合了自蒸馏和强化学习(RLVR),允许学生模型学习超越教师模型的推理策略。实验表明,该技术能有效提升模型的推理能力和探索性,在多个基准测试中取得显著改进。这项工作对于如何利用弱监督或反向信号增强AI推理具有重要启示。论文推理模型强化学习自蒸馏反向信号推荐理由:该工作通过反转教师信号进行推理探索,为自蒸馏和强化学习结合提供了新思路,可能推动弱监督下推理模型的发展,值得关注。
arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar35该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。论文推理模型蒸馏/训练自蒸馏推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。