Anthropic: Transformer Circuits(资讯)60Anthropic 研究团队提出 Sparse Crosscoders,一种从 Transformer 模型中提取跨层一致特征的新方法。该方法通过稀疏编码器同时分析多个层的激活,能够识别出在不同层甚至不同模型中共享的特征。这为理解模型内部表示、比较不同模型之间的差异提供了工具。初步实验表明,Crosscoders 能有效发现跨层特征,并用于模型差异分析。论文可解释性稀疏编码跨层特征模型差异Transformer推荐理由:想理解大模型内部机制的研究者有了新工具——Sparse Crosscoders 能跨层甚至跨模型提取一致特征,做可解释性分析的建议点开看看。