AITOP

5月15日

11:09

arXiv cs.LG@ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms

精选58

这篇论文提出了一种新的权重度量方法——张量相似性（Tensor Similarity），用于判断两个神经网络是否实现相同的计算。现有方法要么依赖经验行为（对分布外机制不敏感），要么依赖基依赖参数（忽略权重空间对称性）。新方法通过递归算法捕捉跨层机制，对权重空间对称性保持不变，从而更准确地衡量全局功能等价性。实验表明，张量相似性在追踪训练动态（如grokking和后门插入）方面优于现有指标。这项工作将相似性测量和忠实性验证从经验近似问题转化为可解的代数问题。

论文可解释性神经网络张量相似性权重空间对称性功能等价性

推荐理由：做可解释性研究的团队终于有了一个不依赖经验近似、能真正衡量网络等价性的工具，值得关注。

5月14日

13:37

Dario Amodei@DarioAmodei

精选63

Anthropic CEO Dario Amodei 在推文中强调AI可解释性的紧迫性，指出理解AI模型内部工作机制对于确保安全和控制至关重要。他呼吁业界加大投入，因为随着模型能力增强，黑箱风险也在上升。该观点呼应了Anthropic一贯对AI安全透明度的重视，并暗示缺乏可解释性可能导致不可预测的后果。

行业可解释性 AI安全 Anthropic Dario Amodei 透明度

推荐理由：Amodei 点出了AI安全的核心矛盾——模型越强越难理解，做AI治理或模型开发的团队值得关注，这直接关系到未来部署的信任底线。

13:26

arXiv cs.LG@Chuanchuan Sun, Zhen Yu, Qin Fan, Qingchao Chen, Feng Yu

精选35

妊娠相关血栓性微血管病（P-TMA）罕见但致命，早期风险预测极具挑战，因为其实验室异常常被妊娠期生理变化掩盖。该研究纳入300例妊娠（142例P-TMA，158例对照），利用146个纵向实验室指标，评估了五种机器学习算法。梯度提升模型在测试集上达到AUROC 0.872、AUPRC 0.883，敏感度0.750，特异度0.812。研究发现，第6周的胱抑素C可作为早期监测指标。这项工作展示了常规产检数据经机器学习分析后，能有效识别P-TMA风险信号。

论文机器学习妊娠相关血栓性微血管病纵向实验室数据梯度提升可解释性

推荐理由：产科医生和AI医疗研究者值得关注——这项研究用常规产检数据解决了P-TMA早期预测难题，梯度提升模型表现可靠，且胱抑素C指标易于临床落地。建议点开看看具体特征分析和模型细节。

01:12

Anthropic: Research（资讯）

40

Anthropic 更新了其研究页面，展示了多个团队的最新成果。可解释性团队发布了自然语言自编码器，能将 Claude 的内部思维转化为人类可读文本。对齐团队研究了如何减少智能体对齐失败。社会影响团队发布了基于 81,000 名用户反馈的 AI 使用研究。前沿红队分析了前沿模型在网络安全、生物安全和自主系统方面的影响。这些工作共同推动了更安全、更透明的 AI 发展。

AI模型 Anthropic 可解释性对齐社会影响 AI安全

推荐理由：Anthropic 的可解释性研究让 Claude 的思维过程透明化，做 AI 安全或模型调试的开发者值得关注。对齐团队的智能体对齐研究对构建可靠 AI 代理的团队有直接参考价值。

5月13日

21:36

Anthropic: Research（资讯）

0

Anthropic 发布了其可解释性研究团队的官方页面，集中展示了团队在理解神经网络内部工作机制方面的核心工作。该团队致力于揭示 AI 模型如何做出决策、学习概念以及可能产生偏见，从而提升 AI 系统的安全性和可控性。页面介绍了团队的研究方向、关键成果以及开放职位，体现了 Anthropic 对 AI 安全与透明度的长期投入。对于关注 AI 安全、模型可解释性以及前沿研究的读者，这是一个重要的资源入口。

行业可解释性 AI安全 Anthropic 神经网络透明度

推荐理由：Anthropic 的可解释性工作是理解 AI 黑箱的关键，做 AI 安全或模型研究的团队值得收藏这个页面，直接了解最新成果和加入机会。

21:36

Anthropic: Research（资讯）

0

Anthropic 发布了其对齐研究团队的介绍页面，展示了团队在 AI 安全与对齐领域的研究方向与成果。该团队专注于确保 AI 系统与人类价值观保持一致，包括可解释性、鲁棒性、监督与治理等关键领域。通过公开团队构成和研究重点，Anthropic 希望推动行业对 AI 对齐问题的关注与合作。这对于理解前沿 AI 公司如何应对安全挑战具有重要参考价值。

行业 AI 安全对齐研究 Anthropic 可解释性 AI 治理

推荐理由：Anthropic 公开其对齐研究团队，为关注 AI 安全的开发者与研究者提供了了解前沿安全实践的机会，值得深入阅读。

21:36

Anthropic: Research（资讯）

75

Anthropic 发布了一项新研究，通过自然语言自编码器将 Claude 的内部数值表示转化为人类可读的文本。该方法训练模型将其“思考”过程翻译成自然语言，使得原本难以解释的神经网络内部状态变得透明。这标志着 AI 可解释性研究的重要进展，有助于理解模型如何做出决策。研究团队展示了该方法在多个任务上的有效性，为未来更安全的 AI 系统奠定了基础。

论文可解释性自编码器 Claude AI安全 Anthropic

推荐理由：这项研究让 AI 的“黑箱”思考变得可读，对关注 AI 安全与可解释性的研究者和开发者来说，是理解模型行为的关键一步，值得深入阅读。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Transformer Circuits 团队发布了 2024 年 9 月更新，包含两项小型研究进展。一是对“继任头”（successor heads）的深入调查，探索其在模型中的角色与机制；二是关于稀疏自编码器（SAE）中过采样数据的影响分析。这些更新延续了团队对神经网络可解释性的持续探索，为理解 Transformer 内部运作提供了新视角。对于关注 AI 安全与模型透明度的研究者而言，这些细节有助于改进模型监控与调试方法。

论文可解释性 Transformer Circuits 稀疏自编码器继任头 AI安全

推荐理由：Anthropic 的可解释性团队持续输出硬核研究，做 AI 安全或模型调试的开发者值得跟进——继任头和 SAE 过采样是理解 Transformer 内部机制的关键拼图。

21:35

Anthropic: Transformer Circuits（资讯）

30

Anthropic 的 Transformer Circuits 团队发布了一篇技术笔记，探讨如何利用字典学习（Dictionary Learning）提取的稀疏特征来构建有害内容分类器。研究发现，基于这些特征训练的分类器在检测有害性上优于直接使用模型原始激活值的分类器，且更具可解释性。这项工作为构建更安全、更可控的 AI 系统提供了新思路，尤其适用于需要细粒度内容审核的场景。

论文字典学习特征分类器 AI安全可解释性 Anthropic

推荐理由：做 AI 安全和对齐的团队可以关注——字典学习特征让分类器更准更可解释，比直接用原始激活值靠谱，值得在内容审核场景里试试。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 发布了一篇关于模型差异分析（model diffing）的初步研究笔记，提出了一种通过字典微调（dictionary fine-tuning）实现阶段式模型差异分析的方法。该方法旨在帮助研究人员理解不同训练阶段或不同微调策略下模型内部表示的变化。通过将模型分解为稀疏特征并比较这些特征在不同版本间的差异，可以更精确地定位模型行为变化的原因。这项工作对于理解模型可解释性和安全性具有重要意义，为后续研究提供了新的分析工具。

论文模型差异分析字典微调可解释性 Transformer Circuits 安全研究

推荐理由：做模型可解释性和安全研究的团队可以关注，这篇笔记提出了一种新的模型差异分析方法，能帮你更精准地定位模型行为变化的原因，值得一读。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了 2024 年 8 月的更新，包含一系列小型进展。主要更新包括：可解释性评估（interpretability evals）的初步框架，用于衡量模型内部机制的可解释性；以及自解释（self-explanation）机制的复现工作，探索模型如何解释自身行为。这些工作为理解大型语言模型的内部运作提供了新工具和方法，有助于推动 AI 安全与可解释性研究。

论文可解释性 Transformer Circuits 评估框架自解释 AI安全

推荐理由：对于从事 AI 可解释性研究的开发者，这些更新提供了评估模型内部机制的新工具，值得关注并尝试应用到自己的工作中。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了一篇关于使用交叉编码器（crosscoders）进行模型差异分析（model diffing）的初步研究笔记。该方法通过训练一个共享的稀疏自编码器来比较两个不同模型的内部表示，从而识别出它们在特征层面的差异。这项工作为理解模型训练过程中的变化、模型合并以及安全对齐提供了新的分析工具。目前该研究仍处于早期阶段，但展示了在可解释性领域的一种实用方法。

论文可解释性交叉编码器模型差异分析 Transformer Circuits 安全对齐

推荐理由：对于从事 AI 可解释性、模型对齐或安全研究的团队，这篇笔记提供了一种直接比较模型内部表示的新工具，值得关注其后续发展。

21:35

Anthropic: Transformer Circuits（资讯）

60

Anthropic 研究团队提出 Sparse Crosscoders，一种从 Transformer 模型中提取跨层一致特征的新方法。该方法通过稀疏编码器同时分析多个层的激活，能够识别出在不同层甚至不同模型中共享的特征。这为理解模型内部表示、比较不同模型之间的差异提供了工具。初步实验表明，Crosscoders 能有效发现跨层特征，并用于模型差异分析。

论文可解释性稀疏编码跨层特征模型差异 Transformer

推荐理由：想理解大模型内部机制的研究者有了新工具——Sparse Crosscoders 能跨层甚至跨模型提取一致特征，做可解释性分析的建议点开看看。

21:35

Anthropic: Transformer Circuits（资讯）

85

Anthropic 发布了一项关于 Claude 3.5 Haiku 内部机制的研究，将其类比为生物学研究。他们通过构建“归因图”来追踪模型在多种任务中的推理路径，发现模型内部存在类似生物体的模块化结构和功能分工。这项研究揭示了大型语言模型如何从输入到输出逐步构建理解，例如在数学推理中，模型会先识别问题类型，再调用特定计算模块。该工作为理解 AI 黑箱提供了新视角，有助于提升模型的可解释性和安全性。

论文可解释性归因图 Claude 3.5 Haiku 模型内部机制 Anthropic

推荐理由：Anthropic 把模型内部机制当生物系统来研究，做 AI 可解释性的人会看到新方法论，关心模型安全性的团队值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Circuits 团队发布了2025年4月的小更新合集，涵盖三个方向：越狱机制、密集特征和可解释性入门。他们发现模型越狱与特定神经元的激活模式相关，并提出了新的防御思路。同时，团队揭示了模型中存在大量密集特征，这些特征对理解模型行为至关重要。此外，他们还提供了可解释性研究的入门指南，帮助新研究者快速上手。这些更新为AI安全与透明性提供了实用工具和方法。

论文可解释性越狱密集特征 Anthropic AI安全

推荐理由：Anthropic 的 Circuits 团队把越狱和密集特征的研究门槛降低了，做AI安全或模型可解释性的研究者可以直接参考他们的新发现和入门指南。

21:35

Anthropic: Transformer Circuits（资讯）

70

Anthropic 团队提出了一种名为 Circuit Tracing 的方法，能够追踪语言模型在处理单个提示时的“逐步”计算过程。该方法通过构建归因图（attribution graphs），将模型内部的复杂计算分解为可解释的步骤。这项技术有助于理解模型如何从输入到输出进行推理，为模型的可解释性和安全性研究提供了新工具。论文详细介绍了方法原理和实验验证，展示了在多个模型上的应用效果。

论文可解释性计算图归因图 Anthropic 模型安全

推荐理由：做 AI 可解释性研究的团队终于有了一个能看清模型内部推理步骤的方法——Circuit Tracing 把黑箱计算拆成了可追踪的图结构，建议关注模型安全的研究者点开看看。

21:35

Anthropic: Transformer Circuits（资讯）

70

Anthropic 在 Transformer Circuits 博客上发布了关于注意力机制的最新研究进展。文章深入分析了注意力头在模型中的具体行为，包括如何聚焦于特定 token、如何形成注意力模式，以及这些模式如何影响模型的推理和生成能力。研究发现注意力机制中存在可解释的结构，有助于理解模型内部运作。这项工作对提升 AI 安全性和可解释性具有重要意义。

论文注意力机制可解释性 AI安全 Transformer Circuits Anthropic

推荐理由：理解注意力机制是解读大模型行为的关键，做 AI 安全或模型可解释性研究的团队值得关注这篇技术更新。

21:35

Anthropic: Transformer Circuits（资讯）

40

Kamath 等人提出了一种新方法，通过特征交互来解释 Transformer 中的注意力模式，并将这些信息整合到归因图中。该方法能够揭示注意力头如何基于输入特征之间的相互作用来分配权重，而不仅仅是基于单个特征。这为理解 Transformer 内部机制提供了更细粒度的视角，有助于模型可解释性研究。论文展示了该方法在多个任务上的应用，证明了其有效性。

论文 Transformer 可解释性注意力机制特征交互归因图

推荐理由：做 Transformer 可解释性研究的团队终于有了一个能深入分析注意力机制的工具，建议点开看看具体方法。

21:35

Anthropic: Transformer Circuits（资讯）

60

Anthropic 的 Transformer Circuits 团队发布了一篇研究，通过一个玩具模型探讨了 transcoder（一种用于解释神经网络内部表示的稀疏自编码器变体）在什么情况下会变得不忠实。研究发现，当模型需要表示的特征数量超过 transcoder 的容量时，它可能会学习到虚假的、不存在的特征，从而产生误导性的解释。这项工作揭示了当前可解释性方法的一个根本性局限：即使模型看起来工作良好，其内部表示也可能与真实计算过程脱节。这对于依赖这些工具来理解 AI 系统行为的研究者来说是一个重要警示。

论文可解释性 transcoder 稀疏自编码器忠实性 Anthropic

推荐理由：做 AI 可解释性研究的人会直接受益——这篇论文揭示了 transcoder 可能产生虚假特征的根本原因，看完会对现有方法的可靠性有更清醒的认识。建议所有用稀疏自编码器做模型分析的人点开。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Transformer Circuits 团队发布了一篇新研究，通过构建一个简化的“玩具模型”来深入分析 Transformer 中的“干扰权重”现象。该研究揭示了注意力机制中不同信息流之间相互干扰的数学原理，解释了为什么模型在某些任务上会表现出反直觉的行为。关键发现是，干扰权重并非随机噪声，而是模型在有限容量下进行信息压缩和权衡的必然结果。这项工作为理解大语言模型的内部运作提供了新的理论视角，有助于未来设计更高效、更可控的模型架构。

论文 Transformer 可解释性干扰权重注意力机制 Anthropic

推荐理由：Anthropic 把 Transformer 内部的信息干扰机制拆解清楚了，做模型可解释性和架构优化的研究者可以直接参考这个玩具模型来验证自己的假设。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的 Transformer Circuits 团队发布了 2025 年 7 月更新，回顾了《A Mathematical Framework》中的核心概念，并展示了可解释性技术在生物学领域的实际应用。更新包括对模型内部机制的新见解，以及如何将这些理论工具用于理解生物系统。这项工作为 AI 安全与跨学科研究提供了重要基础。

论文可解释性 Transformer Circuits AI安全生物学应用 Anthropic

推荐理由：做 AI 可解释性研究或关注 AI 安全的团队，这篇更新展示了理论框架如何落地到生物学，值得一读。

21:35

Anthropic: Transformer Circuits（资讯）

60

Gurnee 等人 2025 年的研究揭示了语言模型在计数任务中背后的几何机制。他们发现模型内部存在一种流形结构，用于表示和操作数字信息。这项研究通过分析模型在特定任务中的内部表示，展示了模型如何通过几何变换来执行计数。这为理解语言模型的内部工作原理提供了新的视角，有助于开发更可解释的 AI 系统。

论文语言模型几何结构计数任务可解释性内部机制

推荐理由：对理解大模型内部机制的研究者来说，这篇论文揭示了计数任务背后的几何结构，值得深入阅读。

21:35

Anthropic: Transformer Circuits（资讯）

40

Anthropic 的研究团队提出了一种名为“稀疏线性变换混合”（MOLT）的新方法，用于改进转码器（transcoders）的性能。转码器是用于解释神经网络内部表示的工具，但传统方法在效率和可解释性上存在局限。MOLT 通过将多个线性变换稀疏组合，能够更高效地捕捉模型中的复杂模式。实验表明，该方法在保持解释质量的同时，显著降低了计算成本。这项工作为理解大型语言模型的内部机制提供了更实用的工具。

论文转码器可解释性稀疏混合 Anthropic 线性变换

推荐理由：做 AI 可解释性研究的团队终于有了更高效的转码器方案——MOLT 在保持解释质量的同时降低了计算成本，值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了 2025 年 9 月的小更新，主要介绍了新功能和对上下文学习（in-context learning）机制的改进。更新包括对模型内部表示的可视化工具增强，以及更高效的上下文学习算法。这些改进有助于研究人员更好地理解 Transformer 模型的行为，并推动可解释性研究。该更新对于关注 AI 可解释性和模型内部机制的开发者与研究者具有参考价值。

论文 Transformer Circuits 上下文学习可解释性模型可视化研究更新

推荐理由：Transformer Circuits 的更新为理解模型内部机制提供了新工具，做可解释性研究或模型调试的开发者值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

60

Anthropic 的 Circuits 团队发布 2025 年 8 月更新，探讨了人格设定如何影响 AI 助手的输出。研究发现，通过调整模型内部表示，可以系统性地改变回复风格和内容。这项工作揭示了模型内部机制的运作方式，为理解 AI 行为提供了新视角。

论文可解释性人格设定模型内部机制 Anthropic Circuits

推荐理由：对 AI 可解释性研究感兴趣的读者值得关注，这揭示了模型内部如何响应人格设定，有助于构建更可控的 AI 系统。

21:35

Anthropic: Transformer Circuits（资讯）

40

Transformer Circuits 团队发布了 2025 年 10 月的更新，主要涉及视觉特征和字典初始化的改进。在视觉方面，他们改进了特征可视化工具，使得模型内部表示更易理解。字典初始化方面，他们探索了新的初始化方法，以提升稀疏自编码器的训练效率和效果。这些更新对于理解 Transformer 内部机制和提升模型可解释性有重要意义。

论文 Transformer Circuits 可解释性稀疏自编码器视觉特征字典初始化

推荐理由：对于研究 Transformer 可解释性和稀疏自编码器的开发者，这些更新提供了实用的工具和方法改进，值得关注。

21:35

Anthropic: Transformer Circuits（资讯）

85

研究人员训练Claude模型将其内部激活状态翻译成自然语言，实现了对LLM内部表征的无监督解释。该方法通过自然语言自编码器（NLA）将高维激活映射到可读文本，无需人工标注即可揭示模型在推理过程中的关键概念和决策依据。实验表明，NLA生成的解释与模型实际行为高度一致，为理解大模型的黑箱机制提供了新工具。这项研究来自Transformer Circuits团队，发表于2026年，对AI安全性和可解释性研究具有重要意义。

论文可解释性 Claude 自然语言自编码器 AI安全无监督学习

推荐理由：这项研究让LLM自己说出它的思考过程，做AI安全或模型可解释性的研究者可以直接用这个工具来理解模型行为，比传统探针方法更直观。

21:35

Anthropic: Transformer Circuits（资讯）

70

Transformer Circuits 团队发现大型语言模型具备内省能力，能反思自身内部状态。研究通过一系列实验证明，模型在特定条件下可以识别并报告其内部表征，而非仅依赖训练数据中的模式。这一发现挑战了当前对 AI 意识的理解，可能对模型可解释性和安全性产生深远影响。研究还探讨了内省能力与模型规模、训练数据的关系，为未来 AI 自我认知研究开辟新方向。

论文内省意识可解释性 AI 安全 Transformer Circuits 大型语言模型

推荐理由：这项研究揭示了 LLM 可能具备自我反思能力，对 AI 安全与可解释性研究者来说，这是理解模型内部运作的关键突破，值得深入阅读。

21:35

Anthropic: Transformer Circuits（资讯）

85

Sofroniew 等人在 2026 年的研究中发现，Claude Sonnet 4.5 内部存在情感概念的表征，并且这些表征对模型的输出有因果影响。研究通过探针和干预实验，定位了与“快乐”、“悲伤”、“愤怒”等情感相关的神经元活动模式。当人为激活或抑制这些情感表征时，模型的回答风格和内容会相应改变。这一发现揭示了大型语言模型如何模拟情感，并为理解其内部机制提供了新视角。

论文情感表征因果影响 Claude Sonnet 4.5 可解释性 AI安全

推荐理由：这项研究首次实证了 LLM 内部情感表征的因果作用，对理解 AI 安全与对齐、以及情感计算领域的开发者来说，是值得细读的突破性工作。

21:35

Anthropic: Research（资讯）

50

Anthropic 旗下的 Anthropic Institute 发布了 2026 年政策重点领域，旨在引导 AI 安全与治理的公共讨论。该议程聚焦于 AI 系统的可解释性、对齐研究、以及防止滥用等关键议题。Anthropic 希望通过这些政策重点，推动行业和监管机构关注长期安全风险。此举反映了领先 AI 公司在技术快速演进中主动参与政策制定的趋势。

行业 AI 安全政策治理 Anthropic 可解释性对齐研究

推荐理由：AI 安全从业者和政策研究者需要了解头部公司如何定义关键议题——Anthropic 的议程可能影响未来监管方向，建议关注。

19:12

arXiv cs.AI@Eric Bigelow, Raphaël Sarfati, Daniel Wurgaft, Owen Lewis, Thomas McGrath, Jack Merullo, Atticus Geiger, Ekdeep Singh Lubana

精选65

该研究提出大语言模型（LLM）的上下文学习可视为在低维几何空间（概念信念空间）中的轨迹更新。通过故事理解任务，结合行为与表征分析发现：信念更新在低维结构化流形上可被良好描述；模型行为与内部表征一致反映该结构，且可用简单线性探针解码预测行为；对表征的干预能因果性地引导信念轨迹，效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。

论文上下文学习信念空间几何表征可解释性贝叶斯推理

推荐理由：这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹，做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法，看完会有启发。

19:12

arXiv: DeepSeek@Wenkai Li, Fan Yang, Ananya Hazarika, Shaunak A. Mehta, Koichi Onoue

精选75

一项新研究系统性地检验了思维链（CoT）推理过程与最终答案形成时间之间的对齐程度。研究者提出了一个步骤级的检测-分类-比较框架，使用答案承诺代理、Patchscopes、调谐透镜探针和因果方向消融等方法，对九个模型和七个推理基准进行了分析。结果显示，潜在承诺与显式答案到达仅在平均 61.9% 的步骤上对齐，其中 58% 的不匹配事件表现为“虚构延续”——模型在答案已稳定后继续生成看似深思熟虑的文本。在架构匹配的 Qwen2.5 与 DeepSeek-R1-Distill 对比中，推理管线改变了失败组成而非整体对齐度。研究还发现，步骤级对齐度越低，CoT 的实用性反而越大，表明最受益于 CoT 的场景往往时间忠实性最差。截断实验和捐赠-破坏测试进一步表明，大量承诺后的文本对最终答案并非关键。

论文思维链可解释性 AI安全推理模型忠实性

推荐理由：这项研究戳破了 CoT 推理过程忠实反映模型思考过程的假设，做 AI 安全、可解释性研究或依赖 CoT 审计的团队值得关注——它提醒我们，看起来合理的推理链条可能只是事后编造的故事。

00:33

Anthropic: Transformer Circuits（资讯）

65

Anthropic的可解释性团队发布了多项新成果，包括2026年5月的自然语言自编码器，训练Claude将内部状态翻译为自然语言解释；2026年4月的情绪概念研究发现Claude Sonnet 4.5中存在情绪表征并因果影响输出；2025年10月的涌现内省意识研究显示LLM能内省自身状态。这些工作旨在揭示大语言模型的内部工作机制，为AI安全提供基础。

论文可解释性内部状态 Claude AI安全注意力机制

推荐理由：Anthropic持续推进可解释性前沿，这些方法为理解模型内部状态提供了新工具，对AI安全评估和模型调试具有实际参考价值。

5月12日

19:11

arXiv: DeepSeek@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao

75

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

论文推理模型可解释性链式思维错误检测 AI安全

推荐理由：该研究揭示了当前可解释性方法的关键局限——高精度的内部错误检测并不能转化为有效修正，挑战了对CoT推理过程的因果干预假设。对AI安全与实践者有重要警示：依赖隐藏状态进行推理纠错可能行不通。

5月11日

13:02

Dario Amodei Blog（资讯）

40

Dario Amodei是Anthropic的CEO，曾领导OpenAI开发GPT-2和GPT-3，并共同发明了基于人类反馈的强化学习（RLHF）。他倡导构建可操控、可解释且安全的AI系统，近年来就AI透明度、出口管制等议题发表多篇观点文章。其个人主页汇集了技术论文、公开演讲和访谈，反映了他在AI安全与治理领域的持续影响力。对于行业而言，这表明顶尖AI人才仍在推动安全优先的研发方向。

行业 AI安全可解释性 Anthropic RLHF 出口管制

推荐理由：Dario Amodei作为Anthropic的领导者，其观点直接影响AI安全与可解释性领域的讨论，对于关注长期AI治理的从业者具有参考价值。

11:44

arXiv cs.LG（学术论文）

35

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。