5月15日
5月14日
5月13日
19:12
arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri
精选70
这篇论文提出了一种名为Fast-Slow Training(FST)的框架,将LLM的参数视为“慢权重”,优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息,慢权重则保持基础模型的一般推理能力。实验表明,FST在推理任务上比仅用强化学习(慢学习)样本效率提升3倍,且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%,显著减少灾难性遗忘,并保持可塑性——在连续学习场景中,FST能持续获取新任务,而参数仅更新的RL方法会停滞。
推荐理由:这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点,做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一,直接结合两者优势。