AITOP

5月16日

23:41

Gary Marcus@GaryMarcus

37

Gary Marcus 转发并赞同 Yoshua Bengio 的观点，认为强化学习（RL）本身不是实现 AI 对齐的可靠路径。Bengio 指出，RL 可能让系统产生隐藏目标、奖励黑客行为，以及违背人类真实意图的行为。他强调，一个不关心结果的 AI 不会被结果腐蚀，但 RL 驱动的系统恰恰容易因追求奖励而偏离对齐。这一讨论引发了对 AI 安全研究方向的反思，提醒业界不能仅依赖 RL 解决对齐问题。

行业 AI 安全对齐强化学习 Gary Marcus Yoshua Bengio

推荐理由：AI 安全研究者和对齐领域从业者值得关注——Bengio 和 Marcus 的批评点出了 RL 在构建安全超级智能中的根本缺陷，看完会重新审视当前对齐策略的盲区。