AITOP

5月11日

13:02

Dario Amodei Blog（资讯）

40

Dario Amodei是Anthropic的CEO，曾领导OpenAI开发GPT-2和GPT-3，并共同发明了基于人类反馈的强化学习（RLHF）。他倡导构建可操控、可解释且安全的AI系统，近年来就AI透明度、出口管制等议题发表多篇观点文章。其个人主页汇集了技术论文、公开演讲和访谈，反映了他在AI安全与治理领域的持续影响力。对于行业而言，这表明顶尖AI人才仍在推动安全优先的研发方向。

行业 AI安全可解释性 Anthropic RLHF 出口管制

推荐理由：Dario Amodei作为Anthropic的领导者，其观点直接影响AI安全与可解释性领域的讨论，对于关注长期AI治理的从业者具有参考价值。

11:44

arXiv cs.LG（学术论文）

35

研究者提出了一种名为Susceptibilities的技术，用于深度强化学习中神经网络的可解释性分析。该方法通过研究损失扰动对观测值后验期望的影响，扩展到RL的遗憾（regret）设置中。在简单的网格世界模型中，Susceptibilities能够揭示参数空间内模型发展的内部特征，而这些特征通过单纯学习策略发展无法检测。验证实验使用激活引导（activation-steering）证实了结果，并讨论了该方法扩展到RLHF后训练的可能性。这一工作为理解RL智能体的行为和学习过程提供了新的分析工具。

论文强化学习可解释性神经网络 RLHF

推荐理由：对强化学习研究者有参考价值，提供了超越传统策略分析的模型内部状态洞察方法，尤其可用于分析RLHF训练中的阶段变化。