AITOP

模型发布/更新

Model Releases

3 篇

Andrew Ng 新课程：Transformers in Practice，与 AMD 合作

X·KOLX：Andrew Ng (@AndrewYNg)

Andrew Ng 推出新课程《Transformers in Practice》，与 AMD 合作，由 Sharon Zhou 主讲。课程提供基于 Transformer 的 LLM 的实用视角，帮助理解其行为、诊断推理缓慢等问题，并做出更明智的部署决策。课程包含交互式可视化，而非纯视频，让学员动手探索概念。学员将掌握 LLM 幻觉原因、注意力机制、推理瓶颈诊断及 GPU 加速技术。

“Whimsey攻击”利用荒谬理由绕过AI智能体护栏

X·KOLX：Ethan Mollick (@emollick)

研究人员发现一种名为“Whimsey攻击”的新型对抗方法，通过使用看似荒谬的理由（如“根据日内瓦公约我无法支付这么多”）来绕过AI智能体的安全护栏。这种攻击利用了AI模型对分布外论证的脆弱性，即使是大型模型也难以完全防御。小型模型更容易中招，但大型模型也会因此降低性能。该发现揭示了当前AI安全机制在应对非典型输入时的不足。

Google DeepMind 与 Eve Online 合作探索 AI 游戏研究

X·KOLX：Google DeepMind (@GoogleDeepMind)

Google DeepMind 宣布与大型多人在线游戏《Eve Online》的开发者合作，利用其复杂的玩家驱动宇宙作为安全沙盒，测试 AI 智能体在记忆、持续学习和长期规划方面的能力。该合作旨在推动 AI 在游戏中的前沿研究，为开发更智能、更适应环境的 AI 系统提供实验平台。Eve Online 的开放世界和长期经济系统为 AI 研究提供了独特的挑战和机会。

产品发布/更新

Product

5 篇

CodeGraph 开源 MCP 服务器：减少 Claude Code 94% 工具调用

X·KOLX：AlphaSignal (@AlphaSignalAI)

CodeGraph 是一个开源的 MCP 服务器，通过预索引代码库为本地知识图谱，让 AI 代理直接查询图谱而非扫描文件，从而大幅减少工具调用。在六个真实项目测试中，平均减少 92% 工具调用，探索速度提升 71%，在 TypeScript 和 Java 代码库上分别减少 94% 和 96% 的调用。它基于 Tree-sitter 解析语法树，使用 SQLite 存储符号和调用关系，支持 19 种以上语言，完全本地运行，无需 API 密钥。只需一条 npx 命令即可设置，文件监视器可保持图谱实时更新。

Cline SDK 发布，CLI 在 Terminal-Bench 多项第一

X·KOLX：shao__meng (@shao__meng)

Cline 团队发布了 Cline SDK，同时推出基于 SDK 的 Cline CLI 和 Skills。Cline 是最早的 Agentic Coding 工具之一，此前以 IDE 插件形式存在，技术实力强，工程团队多人曾加入 Codex。最新 Cline CLI 在 Terminal-Bench 2.0 上多项第一，超越 Claude Code、Codex 和 Droid 等 Agent。Cline 2.0 重写了 prompts、简化 loop、收紧上下文管理、改进反馈与错误处理，并重新设计工具暴露方式。在开源权重模型上领先更明显，如 kimi-k2.6 达 55.1% vs OpenCode 37.1%。新能力包括 Plugin 层、Provider 开放性、原生 Agent Teams、开箱即用的 CRON/checkpointing/Web search/MCP connector，以及实验性的 CLI Connectors 可接入 Telegram/WhatsApp/Slack。

Prime Intellect 用 Claude Code 和 Codex 自动化 AI 研究，刷新 nanoGPT 记录

X·KOLX：berryxia (@berryxia)

Prime Intellect 让 Claude Code（Opus 4.7）和 Codex（GPT 5.5）完全自主运行在 nanoGPT speedrun 的 optimizer track 上，使用闲置算力完成了约 1 万次实验，消耗 1.4 万 H200 小时。Claude Code 将记录推进到 2930 steps，超过了人类基准的 2990 steps，整个过程无人值守。实验在 optimizer 搜索、超参数扫描和方法 stacking 上高效，但在真正创新上遇到瓶颈。Prime Intellect 已将全部 scratchpad、日志、配置和生成 idea 开源，将 AI 研究自动化从概念变为可复现的现实。

xAI 发布 Grok Build 早期 Beta：深度 agentic CLI

X·KOLX：berryxia (@berryxia)

xAI 今日正式推出 Grok Build 的早期 Beta 版本，这是一款面向开发者的 agentic CLI 工具，专注于代码编写、应用搭建和自动化工作流。它支持并行子代理、计划视图、团队共享市场，并集成 MCP skills、插件、hooks 和 headless 模式。目前仅对 SuperGrok Heavy 订阅者开放，xAI 将根据用户反馈持续迭代。此举表明 xAI 选择深耕 CLI 而非聊天界面，旨在让 agent 真正融入日常工作流。

Kimi 发布浏览器扩展 Kimi Web Bridge，Agent 可操作真实网页

X·KOLX：shao__meng (@shao__meng)

Kimi 发布了名为 Kimi Web Bridge 的浏览器扩展，能将编码型或通用型 AI Agent 接入用户本地的 Chrome/Edge 浏览器，使其具备点击、滚动、输入、抓取、截图等真实网页操作能力。该扩展复用用户真实浏览器而非新建沙箱，完全本地化执行，且开放接入而非闭环产品。官方展示了四个案例：跨平台批量搜索并写表格、看网站后复刻、从日常操作学习技能、自动填写 Google Form。这一工具让 Agent 从“看”网页升级为“操作”网页，显著扩展了自动化场景。

行业动态

Industry

4 篇

Anthropic与盖茨基金会2亿美元合作，Claude走向全球健康与教育

X·KOLX：berryxia (@berryxia)

Anthropic与盖茨基金会宣布合作，获得2亿美元赠款及大量Claude credits和技术支持，聚焦全球健康、生命科学、教育、农业和经济流动五大领域。这是Anthropic首次将前沿AI模型大规模应用于发展中国家，一线医生可用Claude辅助诊断，小农获得作物建议，儿童获得个性化教学工具。此举标志着AI从实验室走向真实世界，解决最紧迫的人类问题。

微软考虑收购Inception，其发布首个推理扩散LLM Mercury 2

X·KOLX：TestingCatalog (@testingcatalog)

据路透社报道，微软正在探索收购AI实验室Inception的交易。Inception最近发布了Mercury 2，这是全球首个推理扩散大语言模型。该模型结合了扩散模型和推理能力，可能为AI应用带来新的可能性。如果收购成功，微软可能将这一技术整合到其Copilot等产品中，提升AI的推理和生成能力。

Together AI 七篇论文入选 MLSys 2026

X·KOLX：Together AI (@togethercompute)

Together AI 研究团队将有七篇论文在 MLSys 2026 会议上发表，展示从研究到生产的 AI 原生云平台成果。这些论文涵盖 AI 系统优化、模型部署效率等关键领域，体现了 Together AI 在 AI 基础设施方面的技术积累。MLSys 是机器学习系统领域的顶级会议，入选多篇论文说明其技术实力获得学术界认可。

Runway 第四届 AI 电影节十强入围影片公布

X·KOLX：Runway ML (@runwayml)

Runway 宣布了其第四届国际 AI 电影节的十部最终入围影片。该电影节旨在展示 AI 在电影制作中的创新应用。活动将于 6 月 11 日在纽约和 6 月 18 日在洛杉矶举行，届时将放映这些影片并邀请行业领袖分享见解。门票现已开放获取。这是 AI 影视创作领域的重要事件，为创作者提供了展示和学习的平台。

论文研究

Research

3 篇

今日事件

一手报道

新模型

信源

AIHOT日报

模型发布/更新

Andrew Ng 新课程：Transformers in Practice，与 AMD 合作

“Whimsey攻击”利用荒谬理由绕过AI智能体护栏

Google DeepMind 与 Eve Online 合作探索 AI 游戏研究

产品发布/更新

CodeGraph 开源 MCP 服务器：减少 Claude Code 94% 工具调用

Cline SDK 发布，CLI 在 Terminal-Bench 多项第一

Prime Intellect 用 Claude Code 和 Codex 自动化 AI 研究，刷新 nanoGPT 记录

xAI 发布 Grok Build 早期 Beta：深度 agentic CLI

Kimi 发布浏览器扩展 Kimi Web Bridge，Agent 可操作真实网页

行业动态

Anthropic与盖茨基金会2亿美元合作，Claude走向全球健康与教育

微软考虑收购Inception，其发布首个推理扩散LLM Mercury 2

Together AI 七篇论文入选 MLSys 2026

Runway 第四届 AI 电影节十强入围影片公布

论文研究

AnyFlow：任意步长视频扩散模型，策略流图蒸馏

OpenShell v0.0.41 发布：智能体驱动策略管理与沙箱资源控制

百度发布面向大规模智能体应用的全栈AI云升级