arXiv cs.AI(学术论文)65这项研究通过fMRI记录人类学习新视频游戏时的脑活动,对比了前沿推理模型(LRMs)与深度强化学习代理及贝叶斯理论模型。研究发现LRMs不仅在游戏表现上最接近人类,还能以数量级优势预测人脑活动,且这种对齐主要源于模型对游戏状态的上下文表示而非下游推理。实验证明了LRMs作为复杂环境中人类学习与决策的计算模型的潜力。论文推理模型行为对齐脑活动预测强化学习游戏学习推荐理由:该研究首次系统比较了前沿推理模型与强化学习在行为与脑活动对齐上的差异,为理解AI与人类认知机制的一致性提供了重要证据,对认知科学和AI体设计有参考价值。
arXiv cs.AI(学术论文)30CA-SQL是一种新型Text-to-SQL管道,通过任务难度估计动态调整搜索广度以探索候选查询。该方法结合进化搜索的提示种子策略和新型投票机制,在BIRD基准测试的困难子集上使用GPT-4o-mini达到51.72%准确率,超越使用更大模型的方法。整体执行准确率达61.06%,Soft F1得分68.77%,展示了在复杂SQL生成任务中高效利用计算资源的能力。论文Text-to-SQL推理模型计算分配自然语言到查询推荐理由:该方法为Text-to-SQL领域提供了可落地的复杂度感知计算分配方案,对提升LLM在结构化查询等推理密集型任务中的效率有参考价值。
arXiv cs.AI(学术论文)65研究表明,在多智能体社会困境中,扩展LLM的上下文窗口反而降低合作率。在7个LLM和4个游戏中,28种模型-游戏设置中有18种出现合作退化,作者将其命名为“记忆诅咒”。通过分析37.8万条推理轨迹,发现核心原因是前瞻性意图的减弱而非偏执增强。使用专注于前瞻性推理的LoRA微调可缓解退化,并零样本迁移至其他游戏。记忆内容而非长度是关键触发因素,且显式Chain-of-Thought推理会加剧该现象。这将记忆重新定义为多智能体行为的主动决定因素。论文推理模型多智能体LLM智能体社会困境上下文窗口推荐理由:该研究揭示了LLM能力提升(如上下文窗口扩展)在社会互动场景中的意外负面效应,对多智能体系统设计和部署具有重要警示意义。
arXiv cs.AI(学术论文)70该论文提出了一种名为“rubric-grounded reinforcement learning (RL)”的框架,将奖励分解为多个可验证的加权标准,由冻结的LLM评判器给每个回应评分,从而提供部分信用优化信号。作者从约10万份科技文档中提取评判规则,并利用GRPO方法微调Llama-3.1-8B-Instruct模型,在保留的评判规则评估上获得了71.7%的归一化奖励。经GRPO训练的策略在GSM8K、MATH、GPQA Main和GPQA Diamond等四个未参与训练的推理基准上均优于基础模型。这一结果表明,结构化、文档依赖的奖励能够改善保留评判规则的性能,并诱发可迁移的推理行为。该框架为提升大模型推理的泛化能力提供了一种新的训练范式。论文推理模型强化学习LLM-as-judgeGRPO泛化性推荐理由:该研究通过分解奖励为多标准评判规则,实现了更细粒度的优化信号,在多个推理基准上验证了迁移效果,对大模型推理能力的训练方法有重要参考价值。
arXiv cs.AI(学术论文)65标准推理时扩展技术自一致性通过多数投票选答案,但加权多数投票(如置信度感知自一致性CISC)虽更准却需额外调用批评模型增加成本。VecCISC提出轻量自适应框架,利用语义相似度过滤冗余、退化或幻觉轨迹,减少需评估的候选数。在数学、化学、生物、常识推理和人文五个数据集上,VecCISC降低47% token用量,同时保持或超越CISC精度。该方法为推理时扩展提供了更经济的平衡方案。论文推理模型自一致性成本优化语义聚类LLM评估推荐理由:VecCISC通过聚类与过滤显著降低计算开销,对工业界部署高精度推理模型具有实际价值,尤其适合长轨迹场景。