AITOP

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

15:02

kimi_moonshot@Kimi_Moonshot

月之暗面发布了 Kimi K2.6 Agent Swarm，将并行子智能体数量从 K2.5 的 100 个提升至 300 个，每次运行步数从 1500 步增加到 4000 步。该版本支持输出真实文件而非聊天内容，一次运行可生成 100+ 文件、10 万字文献综述或 2 万行数据集。K2.6 集成了搜索、分析、编程、长文写作和视觉生成等多种异构技能，所有技能可并行运行。用户可通过提供的链接直接体验。

AI产品智能体并行计算 Kimi 月之暗面多模态

推荐理由：K2.6 将并行子智能体规模提升 3 倍，做复杂研究或数据处理的团队可以一次跑出完整报告和数据集，效率提升明显，值得直接上手试。

5月13日

09:12

TestingCatalog@testingcatalog

Google 在 Gemini 网页版新增了 Omni 横幅，预示即将推出多模态 Agent 功能。Gemini Omni 将能结合文本、图像和视频，并允许用户将自己添加到不同场景中。同时，AI 头像（Likeness）功能也即将登陆 Gemini，可能与 Omni 深度集成，该功能在移动端应用上表现突出。这一更新可能于今日的 Android 发布会上公布。

AI产品 Gemini 多模态 Agent AI头像 Google

推荐理由：Gemini Omni 的推出标志着 Google 在多模态 AI Agent 领域的重大进展，结合 AI 头像功能，将显著提升用户交互体验。

09:12

TestingCatalog@testingcatalog

Meta宣布其AI模型Muse Spark将集成到Meta AI应用的新语音模式和实时摄像头视图中，支持图像生成、地图显示、Reels数据拉取等功能。同时，购物模式新增了Facebook Marketplace搜索能力。Muse Spark将在未来几周内逐步在Ray-Ban Meta和Oakley Meta眼镜上推出，并扩展至WhatsApp、Instagram等平台。

AI产品多模态 Muse Spark Meta 语音模式实时摄像头

推荐理由：Muse Spark的发布标志着Meta在AI多模态交互上的重要进展，通过语音和视觉增强用户体验，并整合购物功能，对AI产品生态有显著影响。

09:12

TestingCatalog@testingcatalog

Google 在 Android Show 2026 上发布了全新的 Android Intelligence，带来多项 AI 功能。新系统支持跨应用自动执行多步骤任务，Gemini 在 Chrome 中新增 Browser Use 功能，可自动填写表单。此外，还推出了“Rambler”语音转文字工具和自定义生成 UI 组件。这些更新显著提升了 Android 的智能化水平，为用户带来更便捷的交互体验。

AI产品智能体多模态大模型 Android Gemini

推荐理由：Android Intelligence 的发布标志着 Google 在移动端 AI 集成上的重要进展，其自动化任务和语音转文字功能将直接影响用户日常使用。

08:42

阶跃星辰 Stepfun@StepFun_ai

Stepfun 发布了 Step Image Edit 2，一个 3.5B 参数的图像模型，在指令式图像编辑基准 KRIS-Bench 上排名第一，涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型，支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快，文本到图像仅需 0.7 秒，每次编辑 1.6 秒，每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线，模型 ID 为 step-image-edit-2。

AI模型图像编辑文本到图像多模态 Stepfun 开源/仓库

推荐理由：该模型以极小参数量在图像编辑基准上取得领先，推理速度快且成本低，为图像编辑和生成任务提供了高效的新选择。

02:41

NVIDIA AI@NVIDIAAI

NVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容，来自Nemotron Labs。该模型是Nemotron系列的最新进展，专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景，强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。

AI模型 NVIDIA Nemotron 边缘推理模型压缩多模态

推荐理由：对于关注边缘AI部署和模型压缩的开发者，Nemotron系列的技术细节具有实际参考价值，尤其适合了解NVIDIA在小模型领域的最新动态。

5月12日

21:55

AK@_akhaliq

阿里发布Qwen-Image-2.0技术报告，介绍了新一代多模态图像生成模型。该模型在文本到图像生成、图像编辑和风格迁移等任务上表现出色，支持高分辨率输出和细粒度控制。报告详细阐述了模型架构、训练方法和性能评估，表明其在多项基准测试中达到领先水平。这对于推动多模态AI发展和实际应用具有重要意义。

论文多模态图像生成 Qwen 技术报告

推荐理由：Qwen-Image-2.0的发布展示了阿里在多模态生成领域的持续进步，为图像生成任务提供了新的基准和工具，值得相关从业者关注。

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

17:35

AK@_akhaliq

Pixal3D是一个新的3D生成方法，能够从单张或多张图像生成像素对齐的3D模型。该方法利用像素对齐的表示方式，提高了生成3D模型的几何和纹理精度。相关论文和代码已发布，为3D内容创作提供了更高效的工具。该技术有望推动AR/VR、游戏和影视领域的3D资产自动化生成。

论文 3D生成像素对齐多模态论文

推荐理由：Pixal3D通过像素对齐提升3D生成质量，对于自动化3D建模和数字内容创作具有实际应用价值，值得关注。

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

17:19

歸藏(guizang.ai)@op7418

前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态，并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联，它将所有模态统一在一个模型中，实现任意模态下的实时交互，用户可以随时打断、补充，AI 会持续关注用户状态并输出结果。模型由前台交互模型（每200毫秒处理输入并输出）和后台推理模型（处理复杂推理和长任务）两部分组成，最终提供实时交互和重度任务处理的能力。

AI模型多模态交互模型 Thinking Machines 实时

推荐理由：该模型打破了传统 AI 交互的固定对话模式，实现了真正的多模态实时交互，可能重新定义人机交互的标准。对于从事 AI 产品和交互设计的从业者而言，这是一个值得关注的技术方向。