AITOP

arXiv cs.AI@Rishabh Tiwari, Kusha Sareen, Lakshya A Agrawal, Joseph E. Gonzalez, Matei Zaharia, Kurt Keutzer, Inderjit S Dhillon, Rishabh Agarwal, Devvrit Khatri

精选70

这篇论文提出了一种名为Fast-Slow Training（FST）的框架，将LLM的参数视为“慢权重”，优化后的上下文视为“快权重”。快权重通过文本反馈吸收任务特定信息，慢权重则保持基础模型的一般推理能力。实验表明，FST在推理任务上比仅用强化学习（慢学习）样本效率提升3倍，且性能上限更高。FST训练的模型与基础LLM的KL散度降低70%，显著减少灾难性遗忘，并保持可塑性——在连续学习场景中，FST能持续获取新任务，而参数仅更新的RL方法会停滞。

论文持续学习灾难性遗忘上下文学习强化学习 Fast-Slow Training

推荐理由：这篇论文解决了LLM在持续学习中灾难性遗忘和可塑性丧失的痛点，做模型微调、持续学习或Agent长期记忆的团队值得关注——FST框架让你不用在参数更新和上下文学习之间二选一，直接结合两者优势。

19:12

arXiv cs.AI@Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard

精选75

该论文提出了一种新的语言模型后训练原则：将稀缺的标注验证数据优先用于最强模型（教师）进行稀疏奖励强化学习（如GRPO），然后通过稠密奖励蒸馏（如OPD）将行为迁移到小模型（学生）。实验表明，在固定学生模型大小（Qwen3-1.7B）下，先对8B教师进行RL再蒸馏，效果优于直接在学生上运行GRPO。该原则强调避免在未准备好的策略上使用稀缺数据，而是通过“稀疏奖励发现→稠密迁移→学生侧稀疏奖励”的流程优化资源分配。

论文后训练强化学习知识蒸馏奖励设计 Qwen3

推荐理由：这篇论文为资源受限的团队提供了明确的训练策略——用最强模型做探索、用小模型做部署，做模型压缩或后训练的开发者可以直接参考这个稀疏到稠密的分配原则来提升效率。

19:12

arXiv cs.AI@Xuhao Hu, Xi Zhang, Haiyang Xu, Kyle Qiao, Jingyi Yang, Xuanjing Huang, Jing Shao, Ming Yan, Jieping Ye

精选75

计算机使用智能体（CUA）在同时使用原子GUI操作（如点击、输入）和高级工具调用（如API文件操作）时，常因无法判断何时切换而导致执行路径次优。为解决这一问题，研究者提出ToolCUA，一种端到端智能体，通过分阶段训练范式学习最优GUI-工具路径选择。其核心包括：利用静态GUI轨迹合成工具库的轨迹缩放流水线、结合单步强化学习的工具引导GUI RFT，以及在线智能体强化学习优化。在OSWorld-MCP基准上，ToolCUA达到46.85%准确率，相比基线提升约66%，并比纯GUI设置提升3.9%，证明了混合动作空间训练的有效性。项目已开源。

论文计算机使用智能体 GUI自动化工具调用强化学习开源/仓库

推荐理由：做GUI自动化或智能体开发的团队，这个工作解决了混合动作空间路径选择的痛点——不用手动收集真实工具轨迹也能训练出高效智能体，建议点开看看方法细节。

5月11日

13:03

Greg Brockman Blog（博客/媒体）

精选85

OpenAI Five在总决赛中首次公开击败Dota 2世界冠军OG，这是AI首次在现场比赛中战胜顶级电竞职业战队。该AI基于深度强化学习，经过10个月（相当于45000年游戏内时间）的自我对弈训练，形成了独特的创新玩法。尽管是AI首次与人类冠军公开较量，但OpenAI强调这一事件的核心是让公众直观感受AI技术的真实能力。该通用学习代码未来可应用于机器人控制、辅助系统等领域。

AI产品 AI里程碑强化学习游戏AI OpenAI Five Dota 2

推荐理由：此事件是强化学习在复杂策略游戏中的重大突破，证明了无人工编码的AI能够通过自我学习达到超人水平。它对AI通用性（代码不依赖特定游戏）和未来应用（如机器人交互）有深远启示。