AITOP

5月15日

11:18

arXiv cs.LG@Will Schwarzer, Scott Niekum

精选58

Jones等人提出一种新方法，通过从评估集中最大的k个失败分数外推，预测ML模型在部署规模下的失败率。研究给出了该估计器预测误差的有限k分解，发现其存在偏向过度预测的固有偏差（安全有利方向），但当评估集遗漏部署集中罕见的严重失败模式时，会导致预测不足。为解决这一问题，他们提出了可预测性损失（forecastability loss）作为微调目标。在语言模型密码游戏和RL网格世界两个概念验证实验中，该方法显著降低了保留集上的预测误差，同时保持了主要任务能力，并实现了与监督基线相当的安全性。

论文失败预测安全评估微调目标部署规模机器学习

推荐理由：做AI安全评估的团队终于有了一个可量化的失败预测工具——新方法解决了评估集太小无法捕捉罕见失败模式的痛点，做模型部署前风险评估的开发者可以直接参考实验方法。

5月13日

00:33

Google Research: Blog（资讯）

60

Google Research 博客更新多项AI研究成果，涵盖全球科研合作与开放资源、AI辅助科研工具、图像重构技术、基于经验学习的推理Agent、合成数据设计方法、AI加速脑神经图谱、生成式AI教育应用、用户模拟器、学术工作流AI代理及LLM行为对齐评估等10个方向。其中，ReasoningBank 让智能体从经验中学习，显著提升推理能力；AI生成合成神经元将脑图谱绘制速度提高50倍。这些进展显示了AI在基础科学、算法理论及实际应用中的广泛渗透与加速趋势。

行业 AI科研推理智能体合成数据安全评估开源/仓库

推荐理由：多项成果集中在AI辅助科研与智能体推理，尤其是ReasoningBank和AI加速脑神经研究，表明AI正从工具向自主式科研伙伴演进。对研究人员和AI工程师而言，这些开源资源和评估方法具有实践参考价值。