AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:越狱攻击×
5月15日
10:07
arXiv: Anthropic@Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit
精选58
该论文揭示了LLM越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要指标并不稳定,导致已发表的ASR数值被系统性夸大且不可比较。研究发现,即使一个越狱提示在单次测试中达到80%的ASR,在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响,提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果,而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。
论文LLM安全越狱攻击评估指标随机性CAS-eval/CAS-gen

推荐理由:做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%,CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题,做红队测试的建议点开。
5月12日
19:11
arXiv: Anthropic@Michael A. Riegler, Inga Strümke
75
研究者开发了开源对抗测试框架swarm-attack,利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%,产生49个严重漏洞,而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞,表明此前需限制发布的能力可在零成本下复现,关键因素是系统框架本身补偿了小模型的推理限制。
论文AI安全多智能体/协同越狱攻击漏洞发现开源/仓库

推荐理由:该研究揭示了AI安全政策应聚焦系统而非模型本身,因为小模型通过协调框架即可实现高危险能力,这对当前以模型为中心的安全管控思路提出了重要挑战。