AITOP

5月15日

10:11

arXiv: OpenAI@Matteo Cobelli, Stefano Sanvito

精选58

Autoresearch 是一种自动化科学任务的范式，AI 智能体自主提出、实现、评估和优化解决方案。本文提出 Automat 框架，使用基于 GPT-5.5 的 Codex 编码智能体，为化学化合物生成仅基于化学式的成分描述符，并通过随机森林工作流评估。在预测无机材料带隙和铁磁化合物居里温度两个任务中，Automat 超越了分数成分、Magpie 等基线，生成的描述符具有化学可解释性。该研究证明 autoresearch 智能体无需手动特征工程即可生成任务专用描述符，但也暴露了描述符冗余、贪婪特征扩展敏感性和需要复杂度控制等局限性。

论文 Autoresearch 材料科学描述符设计 GPT-5.5 随机森林

推荐理由：材料科学家和 AI for Science 研究者终于有了一个能自动设计描述符的框架——Automat 用 GPT 智能体替代了繁琐的手动特征工程，在带隙和居里温度预测上直接超越经典 Magpie 基线，做材料信息学的团队值得一试。

5月13日

19:12

arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song

精选75

ExploitGym 是一个大规模、多样化的基准测试，用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例，涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示，前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例，即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险，为防御和攻击场景提供了重要测试平台。

论文安全漏洞 AI智能体基准测试漏洞利用 Claude Mythos Preview GPT-5.5

推荐理由：安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景，做渗透测试或 AI 安全评估的团队可以直接拿来用。