AITOP

5月12日

19:11

arXiv: Anthropic@Michael A. Riegler, Inga Strümke

75

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

论文 AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由：该研究揭示了AI安全政策应聚焦系统而非模型本身，因为小模型通过协调框架即可实现高危险能力，这对当前以模型为中心的安全管控思路提出了重要挑战。

5月11日

11:18

Ethan Mollick@emollick

30

作者意识到“Mythos作为炒作”对不同群体有不同含义。对于业内人，Mythos并非AI能力的魔法飞跃；对外行人，它意味着Mythos未能真正发现零日漏洞。后者是错的，而前者很可能是对的。这反映了AI炒作中信息的断层。

行业 AI安全 Mythos 炒作漏洞发现行业认知

推荐理由：指出Mythos在AI安全领域被内外行误解的双重现象，对理解行业炒作与真实能力差异有参考价值。