VOL.2026.05.15·39 STORIES·AITOP DAILY

AIHOT日报

二〇二六年五月十五日 星期五DAILY · 每早八时
01

模型发布/更新

Model Releases
3

Andrew Ng 新课程:Transformers in Practice,与 AMD 合作

X·KOLX:Andrew Ng (@AndrewYNg)

Andrew Ng 推出新课程《Transformers in Practice》,与 AMD 合作,由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角,帮助理解其行为、诊断推理缓慢等问题,并做出更明智的部署决策。课程包含交互式可视化,而非纯视频,让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

“Whimsey攻击”利用荒谬理由绕过AI智能体护栏

X·KOLX:Ethan Mollick (@emollick)

研究人员发现一种名为“Whimsey攻击”的新型对抗方法,通过使用看似荒谬的理由(如“根据日内瓦公约我无法支付这么多”)来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性,即使是大型模型也难以完全防御。小型模型更容易中招,但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。

Google DeepMind 与 Eve Online 合作探索 AI 游戏研究

X·KOLX:Google DeepMind (@GoogleDeepMind)

Google DeepMind 宣布与大型多人在线游戏《Eve Online》的开发者合作,利用其复杂的玩家驱动宇宙作为安全沙盒,测试 AI 智能体在记忆、持续学习和长期规划方面的能力。该合作旨在推动 AI 在游戏中的前沿研究,为开发更智能、更适应环境的 AI 系统提供实验平台。Eve Online 的开放世界和长期经济系统为 AI 研究提供了独特的挑战和机会。

02

产品发布/更新

Product
5

CodeGraph 开源 MCP 服务器:减少 Claude Code 94% 工具调用

X·KOLX:AlphaSignal (@AlphaSignalAI)

CodeGraph 是一个开源的 MCP 服务器,通过预索引代码库为本地知识图谱,让 AI 代理直接查询图谱而非扫描文件,从而大幅减少工具调用。在六个真实项目测试中,平均减少 92% 工具调用,探索速度提升 71%,在 TypeScript 和 Java 代码库上分别减少 94% 和 96% 的调用。它基于 Tree-sitter 解析语法树,使用 SQLite 存储符号和调用关系,支持 19 种以上语言,完全本地运行,无需 API 密钥。只需一条 npx 命令即可设置,文件监视器可保持图谱实时更新。

Cline SDK 发布,CLI 在 Terminal-Bench 多项第一

X·KOLX:shao__meng (@shao__meng)

Cline 团队发布了 Cline SDK,同时推出基于 SDK 的 Cline CLI 和 Skills。Cline 是最早的 Agentic Coding 工具之一,此前以 IDE 插件形式存在,技术实力强,工程团队多人曾加入 Codex。最新 Cline CLI 在 Terminal-Bench 2.0 上多项第一,超越 Claude Code、Codex 和 Droid 等 Agent。Cline 2.0 重写了 prompts、简化 loop、收紧上下文管理、改进反馈与错误处理,并重新设计工具暴露方式。在开源权重模型上领先更明显,如 kimi-k2.6 达 55.1% vs OpenCode 37.1%。新能力包括 Plugin 层、Provider 开放性、原生 Agent Teams、开箱即用的 CRON/checkpointing/Web search/MCP connector,以及实验性的 CLI Connectors 可接入 Telegram/WhatsApp/Slack。

Prime Intellect 用 Claude Code 和 Codex 自动化 AI 研究,刷新 nanoGPT 记录

X·KOLX:berryxia (@berryxia)

Prime Intellect 让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,消耗 1.4 万 H200 小时。Claude Code 将记录推进到 2930 steps,超过了人类基准的 2990 steps,整个过程无人值守。实验在 optimizer 搜索、超参数扫描和方法 stacking 上高效,但在真正创新上遇到瓶颈。Prime Intellect 已将全部 scratchpad、日志、配置和生成 idea 开源,将 AI 研究自动化从概念变为可复现的现实。

xAI 发布 Grok Build 早期 Beta:深度 agentic CLI

X·KOLX:berryxia (@berryxia)

xAI 今日正式推出 Grok Build 的早期 Beta 版本,这是一款面向开发者的 agentic CLI 工具,专注于代码编写、应用搭建和自动化工作流。它支持并行子代理、计划视图、团队共享市场,并集成 MCP skills、插件、hooks 和 headless 模式。目前仅对 SuperGrok Heavy 订阅者开放,xAI 将根据用户反馈持续迭代。此举表明 xAI 选择深耕 CLI 而非聊天界面,旨在让 agent 真正融入日常工作流。

Kimi 发布浏览器扩展 Kimi Web Bridge,Agent 可操作真实网页

X·KOLX:shao__meng (@shao__meng)

Kimi 发布了名为 Kimi Web Bridge 的浏览器扩展,能将编码型或通用型 AI Agent 接入用户本地的 Chrome/Edge 浏览器,使其具备点击、滚动、输入、抓取、截图等真实网页操作能力。该扩展复用用户真实浏览器而非新建沙箱,完全本地化执行,且开放接入而非闭环产品。官方展示了四个案例:跨平台批量搜索并写表格、看网站后复刻、从日常操作学习技能、自动填写 Google Form。这一工具让 Agent 从“看”网页升级为“操作”网页,显著扩展了自动化场景。

03

行业动态

Industry
4

Anthropic与盖茨基金会2亿美元合作,Claude走向全球健康与教育

X·KOLX:berryxia (@berryxia)

Anthropic与盖茨基金会宣布合作,获得2亿美元赠款及大量Claude credits和技术支持,聚焦全球健康、生命科学、教育、农业和经济流动五大领域。这是Anthropic首次将前沿AI模型大规模应用于发展中国家,一线医生可用Claude辅助诊断,小农获得作物建议,儿童获得个性化教学工具。此举标志着AI从实验室走向真实世界,解决最紧迫的人类问题。

微软考虑收购Inception,其发布首个推理扩散LLM Mercury 2

X·KOLX:TestingCatalog (@testingcatalog)

据路透社报道,微软正在探索收购AI实验室Inception的交易。Inception最近发布了Mercury 2,这是全球首个推理扩散大语言模型。该模型结合了扩散模型和推理能力,可能为AI应用带来新的可能性。如果收购成功,微软可能将这一技术整合到其Copilot等产品中,提升AI的推理和生成能力。

Together AI 七篇论文入选 MLSys 2026

X·KOLX:Together AI (@togethercompute)

Together AI 研究团队将有七篇论文在 MLSys 2026 会议上发表,展示从研究到生产的 AI 原生云平台成果。这些论文涵盖 AI 系统优化、模型部署效率等关键领域,体现了 Together AI 在 AI 基础设施方面的技术积累。MLSys 是机器学习系统领域的顶级会议,入选多篇论文说明其技术实力获得学术界认可。

Runway 第四届 AI 电影节十强入围影片公布

X·KOLX:Runway ML (@runwayml)

Runway 宣布了其第四届国际 AI 电影节的十部最终入围影片。该电影节旨在展示 AI 在电影制作中的创新应用。活动将于 6 月 11 日在纽约和 6 月 18 日在洛杉矶举行,届时将放映这些影片并邀请行业领袖分享见解。门票现已开放获取。这是 AI 影视创作领域的重要事件,为创作者提供了展示和学习的平台。

04

论文研究

Research
3

AnyFlow:任意步长视频扩散模型,策略流图蒸馏

X·KOLX:AK (@_akhaliq)

AnyFlow 是一种新型视频扩散模型,支持任意步长的生成,通过策略流图蒸馏技术提升效率。该方法解决了传统视频扩散模型在步长选择上的限制,允许用户根据需求灵活调整生成速度和质量。关键创新在于在线策略流图蒸馏,使模型在训练和推理时都能适应不同步长。这项研究有望降低视频生成的计算成本,同时保持高质量输出。

OpenShell v0.0.41 发布:智能体驱动策略管理与沙箱资源控制

X·KOLX:NVIDIA AI (@NVIDIAAI)

OpenShell 发布 v0.0.41 版本,新增智能体驱动的策略管理功能,允许用户通过 shell 直接控制策略和资源。CLI 中增加了沙箱资源标志,支持自定义 CA 用于 OIDC TLS 验证,并改进了沙箱下载的工作区边界检查。该版本还包含多项错误修复和稳定性改进,旨在提升开发者在安全策略和资源管理方面的效率。

百度发布面向大规模智能体应用的全栈AI云升级

X·KOLX:百度 AI Baidu (@Baidu_Inc)

百度在Baidu Create大会上宣布推出专为大规模智能体应用设计的全栈AI云,升级覆盖智能体基础设施和AI基础设施。该云平台采用百度自研昆仑芯AI芯片的专用集群,已成功支持文心大模型5.1系列中关键模型的训练。这标志着百度在支撑智能体应用规模化部署方面迈出重要一步,解决了云基础设施与智能体应用同步扩展的挑战。

39
今日事件
0
一手报道
3
新模型
19
信源
AITOP · 编辑系统自动生成