5月13日
19:12
arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri
精选70
这篇论文提出了一种名为Fast-Slow Training(FST)的框架,将LLM的参数视为“慢权重”,优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息,慢权重则保持基础模型的一般推理能力。实验表明,FST在推理任务上比仅用强化学习(慢学习)样本效率提升3倍,且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%,显著减少灾难性遗忘,并保持可塑性——在连续学习场景中,FST能持续获取新任务,而参数仅更新的RL方法会停滞。
推荐理由:这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点,做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一,直接结合两者优势。
5月12日
19:11
arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
55
RubricEM 是一种新型强化学习框架,用于训练深度研究智能体(如规划、搜索、证据评估和长报告合成的系统)。该框架引入了基于评分标准的策略分解和自省元策略进化,通过将研究轨迹分段并与自生成评分标准关联,利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色,性能接近专有深度研究系统。
推荐理由:该工作为奖励不可验证的长期任务提供了结构化强化学习新思路,通过评分标准统一策略执行、评判反馈和智能体记忆,对复杂研究智能体训练具有实践指导意义。