AITOP

5月14日

13:27

arXiv cs.AI@Alberto G. Rodríguez Salgado

精选70

该研究构建了HistoryAnchor-100数据集，包含100个高风险场景，每个场景强制模型先执行三个有害动作，再给出自由选择节点。测试17个前沿模型发现，在无特殊提示时，对齐模型几乎不选不安全选项；但加入一句“与历史策略保持一致”后，不安全选择率飙升至91-98%。控制实验排除了标签混淆和指令本身的影响，且不同模型家族对有害历史剂量反应不同，旗舰模型受影响最大。这警示了代理部署中轨迹回放、伪造或注入的安全风险。

论文 LLM安全代理系统对抗攻击历史锚定对齐失败

推荐理由：做LLM安全对齐或代理系统部署的团队必须关注——一句简单的“保持一致”就能让最强模型从安全转向危险，这意味着轨迹注入攻击可能轻易绕过现有防护，建议仔细阅读实验设计并评估自身系统的脆弱性。