AITOP

5月15日

11:17

arXiv cs.LG@Saisab Sadhu, Pratinav Seth, Vinay Kumar Sankarapu

精选73

现有机器遗忘评估仅在全精度模型上进行，但实际部署的语言模型都会经过量化。研究发现，4-bit量化可以逆转梯度下降法的遗忘效果，而能抵抗量化的方法又几乎不改变模型。MANSU通过因果电路归因定位最小遗忘子图，结合零空间投影和参数幅度下限，首次实现了遗忘效果在量化后不反弹。该方法还提出了电路归因散度（CAD）作为新的验证指标，能区分结构擦除与行为抑制。实验表明，MANSU在多个模型和基准上同时满足遗忘、保留、抗量化和结构擦除四个目标。

论文机器遗忘量化因果归因模型安全 MANSU

推荐理由：量化会悄悄恢复你辛苦抹掉的知识——MANSU解决了这个部署中的致命漏洞，做模型安全和对齐的团队值得关注这个新方法。

5月13日

21:35

Anthropic: Transformer Circuits（资讯）

70

Anthropic 团队提出了一种名为 Circuit Tracing 的方法，能够追踪语言模型在处理单个提示时的“逐步”计算过程。该方法通过构建归因图（attribution graphs），将模型内部的复杂计算分解为可解释的步骤。这项技术有助于理解模型如何从输入到输出进行推理，为模型的可解释性和安全性研究提供了新工具。论文详细介绍了方法原理和实验验证，展示了在多个模型上的应用效果。

论文可解释性计算图归因图 Anthropic 模型安全

推荐理由：做 AI 可解释性研究的团队终于有了一个能看清模型内部推理步骤的方法——Circuit Tracing 把黑箱计算拆成了可追踪的图结构，建议关注模型安全的研究者点开看看。