AITOP

arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister

RubricEM 是一种新型强化学习框架，用于训练深度研究智能体（如规划、搜索、证据评估和长报告合成的系统）。该框架引入了基于评分标准的策略分解和自省元策略进化，通过将研究轨迹分段并与自生成评分标准关联，利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色，性能接近专有深度研究系统。

论文强化学习智能体研究智能体元学习

推荐理由：该工作为奖励不可验证的长期任务提供了结构化强化学习新思路，通过评分标准统一策略执行、评判反馈和智能体记忆，对复杂研究智能体训练具有实践指导意义。