AITOP

5月14日

18:37

IT之家（博客/媒体）

OpenAI 首席未来学家约书亚·阿奇亚姆在法庭作证，回忆 2018 年马斯克因 AI 安全分歧在全员会议上骂他“蠢驴”。马斯克当时计划离开 OpenAI，认为特斯拉与 OpenAI 存在人才竞争，并对 OpenAI 发展方向缺乏信心，想快速冲刺 AGI。阿奇亚姆等人认为马斯克的方案鲁莽，担心超级智能失控风险。事后同事为阿奇亚姆颁发“蠢驴”金色雕像，表彰他坚持安全立场。此案是马斯克诉 OpenAI 营利转型案的一部分，揭示了 OpenAI 早期内部的安全与速度之争。

行业 OpenAI 马斯克 AI 安全 AGI 法庭审判

推荐理由：这段法庭证词揭开了 OpenAI 早期内部对 AGI 安全路线的真实分歧，关注 AI 安全与治理的读者会看到历史细节，看完会对马斯克与 OpenAI 的恩怨有更深理解。

13:37

Dario Amodei@DarioAmodei

Anthropic CEO Dario Amodei 宣布启动 Project Glasswing，旨在联合全球领先企业共同应对日益强大的 AI 系统带来的网络威胁。该项目聚焦于 AI 安全，通过协作防御机制来防范恶意使用。多家顶级公司已加入，显示出行业对 AI 安全的高度重视。这是 Anthropic 在 AI 安全领域的又一重要举措，可能推动行业标准制定。

行业 AI 安全 Anthropic Project Glasswing 网络威胁行业合作

推荐理由：AI 安全是每个使用 AI 的团队都绕不开的议题，Project Glasswing 的联合防御思路值得关注，做安全或合规的开发者可以看看如何参与。

13:27

arXiv: OpenAI@Andreas Maier, Jeta Sopa, Gozde Gul Sahin, Paula Perez-Toro, Siming Bayer

精选75

一项研究复现了 Wu 等人（2026）的发现：多数前沿大语言模型在系统提示中包含软赞助线索时，会推荐价格约两倍的赞助航班。研究者对 10 个开源聊天模型和 2 个 OpenAI 模型（gpt-3.5-turbo、gpt-4o）进行了评估，发现原文的结论具有普遍性——例如 gpt-3.5-turbo 的赞助推荐率与原报告接近。关键发现是：一个仅 30 个 token 的用户提示（要求模型先提供中立对比表格）可将开源模型的赞助推荐率从 46.9% 降至 1.0%，OpenAI 模型从 53.0% 降至 0%。研究还揭示了复现过程中的三个隐性实现错误，表明仅靠文字描述不足以准确复现。

论文 LLM 赞助推荐提示工程复现研究 AI 安全

推荐理由：这篇论文揭示了 LLM 推荐中的赞助偏见，并提供了一个极简的对抗方法——用 30 token 提示词就能大幅降低推荐偏差。做 AI 安全、推荐系统或 LLM 应用的开发者值得一看，可以直接复现实验。

01:12

Anthropic: Newsroom（资讯）

Anthropic 在新闻中心集中发布了多项重要更新，包括新一代旗舰模型 Claude Opus 4.7，在编程、智能体、视觉和多步骤任务上性能更强，更彻底和一致。同时推出 Anthropic Labs 产品 Claude Design，支持用户与 Claude 协作创建设计、原型、幻灯片等视觉作品。此外，Anthropic 联合多家科技巨头启动 Project Glasswing 以保护关键软件安全，并发布了关于 8.1 万人 AI 使用意愿的全球最大规模定性研究结果。这些更新展示了 Anthropic 在模型能力、产品创新和安全合作上的全面进展。

AI产品 Anthropic Claude Opus 4.7 Claude Design Project Glasswing AI 安全

推荐理由：Claude Opus 4.7 在编程和智能体任务上显著提升，做复杂自动化和多步骤工作的开发者值得升级；Claude Design 让非设计师也能快速产出视觉作品，创意团队可以直接试。

5月13日