arXiv cs.LG@Christopher Stith, Medha Barath, Vahid Balazadeh, Jesse C. Cresswell, Rahul G. Krishnan精选58因果推断在多个学科中至关重要,但连续治疗设置(干预变量为连续值)的研究远少于二元治疗。本文提出首个针对连续治疗设置的因果基础模型,通过元学习在未见任务上预测因果效应,无需额外训练。模型设计了一种新的数据生成过程先验,生成丰富的因果训练语料,并训练Transformer利用上下文学习从观测数据重建个体治疗-响应曲线。该模型在个体治疗-响应曲线重建任务上达到最先进性能,超越了专门训练的因果模型。论文因果推断基础模型连续治疗Transformer元学习推荐理由:连续治疗效应预测是因果推断的难点,做医疗、经济等领域的因果分析团队可以直接用这个基础模型零样本预测,省去大量模型训练成本。
arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister55RubricEM 是一种新型强化学习框架,用于训练深度研究智能体(如规划、搜索、证据评估和长报告合成的系统)。该框架引入了基于评分标准的策略分解和自省元策略进化,通过将研究轨迹分段并与自生成评分标准关联,利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色,性能接近专有深度研究系统。论文强化学习智能体研究智能体元学习推荐理由:该工作为奖励不可验证的长期任务提供了结构化强化学习新思路,通过评分标准统一策略执行、评判反馈和智能体记忆,对复杂研究智能体训练具有实践指导意义。