AITOP

5月11日

11:42

arXiv cs.AI（学术论文）

70

该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架，将奖励分解为多个可验证的加权标准，由冻结的LLM评判器给每个回应评分，从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则，并利用GRPO方法微调Llama-3.1-8B-Instruct模型，在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明，结构化、文档依赖的奖励能够改善保留评判规则的性能，并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。

论文推理模型强化学习 LLM-as-judge GRPO 泛化性

推荐理由：该研究通过分解奖励为多标准评判规则，实现了更细粒度的优化信号，在多个推理基准上验证了迁移效果，对大模型推理能力的训练方法有重要参考价值。