AITOP

5月13日

19:12

arXiv: DeepSeek@Mingxiong Lin, Zhangquan Gong, Maowen Tang, Qian Li, Chuangchuang Wang, Jian Ma, Sutian Huang, Kai Tang, Haonan Lu

精选65

论文发现GRPO算法存在两个效率问题：固定KL系数限制模型探索，均匀采样忽略中等难度题目的信息价值。提出FG-ExPO方法，包含两个轻量组件：基于准确率的自适应KL缩放（AKL）动态调整约束强度，以及高斯课程采样（GCS）聚焦模型学习前沿。在DeepSeek-R1-Distill-Qwen-1.5B和Qwen3-8B-Base上测试，AIME 2025 pass@32从63.33%提升至76.67%，8B模型平均提升2.66%。该方法在固定推理预算下扩大了模型有效探索空间。

论文 GRPO 强化学习数学推理课程学习自适应KL

推荐理由：做LLM数学推理RL训练的团队，GRPO的KL系数和采样策略可以照搬这个改进，AIME 2025上13个点的提升值得一试。

5月11日

11:42

arXiv cs.AI（学术论文）

70

该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架，将奖励分解为多个可验证的加权标准，由冻结的LLM评判器给每个回应评分，从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则，并利用GRPO方法微调Llama-3.1-8B-Instruct模型，在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明，结构化、文档依赖的奖励能够改善保留评判规则的性能，并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。

论文推理模型强化学习 LLM-as-judge GRPO 泛化性

推荐理由：该研究通过分解奖励为多标准评判规则，实现了更细粒度的优化信号，在多个推理基准上验证了迁移效果，对大模型推理能力的训练方法有重要参考价值。