AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:LLM-as-judge×
5月11日
11:42
arXiv cs.AI(学术论文)
70
该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架,将奖励分解为多个可验证的加权标准,由冻结的LLM评判器给每个回应评分,从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则,并利用GRPO方法微调Llama-3.1-8B-Instruct模型,在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明,结构化、文档依赖的奖励能够改善保留评判规则的性能,并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。
论文推理模型强化学习LLM-as-judgeGRPO泛化性

推荐理由:该研究通过分解奖励为多标准评判规则,实现了更细粒度的优化信号,在多个推理基准上验证了迁移效果,对大模型推理能力的训练方法有重要参考价值。