AITOP

5月15日

11:19

arXiv cs.LG@Christopher Stith, Medha Barath, Vahid Balazadeh, Jesse C. Cresswell, Rahul G. Krishnan

精选58

因果推断在多个学科中至关重要，但连续治疗设置（干预变量为连续值）的研究远少于二元治疗。本文提出首个针对连续治疗设置的因果基础模型，通过元学习在未见任务上预测因果效应，无需额外训练。模型设计了一种新的数据生成过程先验，生成丰富的因果训练语料，并训练Transformer利用上下文学习从观测数据重建个体治疗-响应曲线。该模型在个体治疗-响应曲线重建任务上达到最先进性能，超越了专门训练的因果模型。

论文因果推断基础模型连续治疗 Transformer 元学习

推荐理由：连续治疗效应预测是因果推断的难点，做医疗、经济等领域的因果分析团队可以直接用这个基础模型零样本预测，省去大量模型训练成本。

5月12日

19:11

arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister

RubricEM 是一种新型强化学习框架，用于训练深度研究智能体（如规划、搜索、证据评估和长报告合成的系统）。该框架引入了基于评分标准的策略分解和自省元策略进化，通过将研究轨迹分段并与自生成评分标准关联，利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色，性能接近专有深度研究系统。

论文强化学习智能体研究智能体元学习

推荐理由：该工作为奖励不可验证的长期任务提供了结构化强化学习新思路，通过评分标准统一策略执行、评判反馈和智能体记忆，对复杂研究智能体训练具有实践指导意义。