5月12日
19:11
arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister
55
RubricEM 是一种新型强化学习框架,用于训练深度研究智能体(如规划、搜索、证据评估和长报告合成的系统)。该框架引入了基于评分标准的策略分解和自省元策略进化,通过将研究轨迹分段并与自生成评分标准关联,利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色,性能接近专有深度研究系统。
推荐理由:该工作为奖励不可验证的长期任务提供了结构化强化学习新思路,通过评分标准统一策略执行、评判反馈和智能体记忆,对复杂研究智能体训练具有实践指导意义。
5月11日
22:17