AITOP

5月15日

10:52

arXiv cs.AI@Ziyu Guo, Rain Liu, Xinyan Chen, Pheng-Ann Heng

精选58

ATLAS 提出了一种新框架，用一个离散的“功能标记”（functional token）同时作为代理操作和潜在视觉推理单元，避免了传统方法中生成中间视觉内容的高计算成本。该标记无需视觉监督，保持标准词汇表格式，可通过下一个词预测生成，兼容标准 SFT 和 RL 训练。针对强化学习中功能标记稀疏的问题，引入 Latent-Anchored GRPO 稳定训练。实验表明 ATLAS 在挑战性基准上表现优异且可解释性强。这项工作为视觉推理研究提供了新范式。

论文视觉推理功能标记强化学习 ATLAS 多模态

推荐理由：ATLAS 用单个词解决视觉推理中计算开销和泛化难题，做多模态或视觉推理的开发者可以直接参考其设计思路，值得关注。

5月14日

18:29

Meta AI@AIatMeta

Meta 超级智能实验室推出了 Muse 系列的首个模型 Muse Spark，这是一个原生多模态推理模型，支持工具使用、视觉思维链和多智能体编排。该模型已在 Meta AI 应用和指定网站上线，并通过 API 向部分合作伙伴提供私有预览。Meta 表示未来版本将开源。Muse Spark 的发布标志着 Meta 在多模态推理和智能体协作领域的重要进展。

AI模型多模态推理模型工具调用智能体 Meta

推荐理由：做多模态应用或智能体开发的团队可以直接上手试 Muse Spark 的工具调用和视觉思维链能力，Meta 承诺未来开源也值得关注。

15:02

kimi_moonshot@Kimi_Moonshot

月之暗面发布了 Kimi K2.6 Agent Swarm，将并行子智能体数量从 K2.5 的 100 个提升至 300 个，每次运行步数从 1500 步增加到 4000 步。该版本支持输出真实文件而非聊天内容，一次运行可生成 100+ 文件、10 万字文献综述或 2 万行数据集。K2.6 集成了搜索、分析、编程、长文写作和视觉生成等多种异构技能，所有技能可并行运行。用户可通过提供的链接直接体验。

AI产品智能体并行计算 Kimi 月之暗面多模态

推荐理由：K2.6 将并行子智能体规模提升 3 倍，做复杂研究或数据处理的团队可以一次跑出完整报告和数据集，效率提升明显，值得直接上手试。

5月13日

13:05

IT之家（博客/媒体）

精选70

面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6，参数规模 1.3B，仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B，整体能力接近 Qwen3.5-2B 级别。效率方面，基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍，计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构，将图像编码计算量降低 55.8%，处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源，支持 iOS、Android 和 HarmonyOS 等系统。

AI模型大模型多模态开源/仓库 MiniCPM-V 面壁智能

推荐理由：1.3B模型6G内存就能跑

10:25

IT之家（博客/媒体）

索尼发布 Xperia 1 Ⅷ 旗舰手机，搭载高通骁龙 8 Elite Gen 5 芯片和 5000mAh 电池。相机系统升级显著，长焦传感器尺寸比前代大四倍，采用固定 70mm 等效焦距和 48MP 分辨率。新机引入 RAW 多帧合成和 AI 相机助理功能，并保留 3.5mm 耳机孔和 microSD 卡槽。欧洲起售价 1499 欧元，北美市场缺席。

AI产品 AI相机助理多模态大模型骁龙8 Elite Gen 5 Xperia

推荐理由：Xperia 1 Ⅷ 在影像硬件和 AI 功能上大幅升级，长焦传感器尺寸提升四倍，结合 RAW 多帧合成和 AI 场景分析，对摄影爱好者有吸引力。

09:12

TestingCatalog@testingcatalog

Google 在 Gemini 网页版新增了 Omni 横幅，预示即将推出多模态 Agent 功能。Gemini Omni 将能结合文本、图像和视频，并允许用户将自己添加到不同场景中。同时，AI 头像（Likeness）功能也即将登陆 Gemini，可能与 Omni 深度集成，该功能在移动端应用上表现突出。这一更新可能于今日的 Android 发布会上公布。

AI产品 Gemini 多模态 Agent AI头像 Google

推荐理由：Gemini Omni 的推出标志着 Google 在多模态 AI Agent 领域的重大进展，结合 AI 头像功能，将显著提升用户交互体验。

09:12

TestingCatalog@testingcatalog

Meta宣布其AI模型Muse Spark将集成到Meta AI应用的新语音模式和实时摄像头视图中，支持图像生成、地图显示、Reels数据拉取等功能。同时，购物模式新增了Facebook Marketplace搜索能力。Muse Spark将在未来几周内逐步在Ray-Ban Meta和Oakley Meta眼镜上推出，并扩展至WhatsApp、Instagram等平台。

AI产品多模态 Muse Spark Meta 语音模式实时摄像头

推荐理由：Muse Spark的发布标志着Meta在AI多模态交互上的重要进展，通过语音和视觉增强用户体验，并整合购物功能，对AI产品生态有显著影响。

09:12

TestingCatalog@testingcatalog

Google 在 Android Show 2026 上发布了全新的 Android Intelligence，带来多项 AI 功能。新系统支持跨应用自动执行多步骤任务，Gemini 在 Chrome 中新增 Browser Use 功能，可自动填写表单。此外，还推出了“Rambler”语音转文字工具和自定义生成 UI 组件。这些更新显著提升了 Android 的智能化水平，为用户带来更便捷的交互体验。

AI产品智能体多模态大模型 Android Gemini

推荐理由：Android Intelligence 的发布标志着 Google 在移动端 AI 集成上的重要进展，其自动化任务和语音转文字功能将直接影响用户日常使用。

08:42

阶跃星辰 Stepfun@StepFun_ai

Stepfun 发布了 Step Image Edit 2，一个 3.5B 参数的图像模型，在指令式图像编辑基准 KRIS-Bench 上排名第一，涵盖总体、事实和概念类别。其性能超越参数规模 5-6 倍的模型，支持文本到图像生成、指令编辑、双语文字渲染和风格迁移。推理速度快，文本到图像仅需 0.7 秒，每次编辑 1.6 秒，每张图像成本仅 $0.003。该模型已在 Stepfun 开放平台上线，模型 ID 为 step-image-edit-2。

AI模型图像编辑文本到图像多模态 Stepfun 开源/仓库

推荐理由：该模型以极小参数量在图像编辑基准上取得领先，推理速度快且成本低，为图像编辑和生成任务提供了高效的新选择。

02:41

NVIDIA AI@NVIDIAAI

NVIDIA AI官方发布了关于Nemotron 3 Nano Omni的专家问答内容，来自Nemotron Labs。该模型是Nemotron系列的最新进展，专注于边缘设备上的高效AI推理。问答中探讨了模型架构、量化技术与实际部署场景，强调了小模型在保持高性能同时降低计算成本的重要性。这标志着NVIDIA在小型化多模态AI模型上的持续投入。

AI模型 NVIDIA Nemotron 边缘推理模型压缩多模态

推荐理由：对于关注边缘AI部署和模型压缩的开发者，Nemotron系列的技术细节具有实际参考价值，尤其适合了解NVIDIA在小模型领域的最新动态。

00:33

MiniMax: News（资讯）

AI产品 MiniMax 多模态文本生成语音合成视频生成

推荐理由：此次更新体现了 MiniMax 在 AI 多模态领域的持续投入，特别是 M2.7 和 Speech 2.8 的推出可能带来文本理解和语音合成性能的提升，值得关注其在开放平台上的实际表现。

00:33

Google Developers Blog（博客/媒体）

Google DeepMind推出Gemma 4系列开源模型，专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”，以及LiteRT-LM库，提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可，支持140多种语言，兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。

AI模型智能体 Gemma 4 边缘计算开源/仓库多模态

推荐理由：此发布将前沿的智能体能力带入低功耗设备，为边缘AI应用（如本地化助手和离线自动化）提供了新的可能性，对开发者社区和物联网领域具有实际参考价值。

00:33

Google Developers Blog（博客/媒体）

Google Cloud AI Agent Bake-Off强调从提示工程转向严格的智能体工程，生产级AI需模块化、多智能体架构。文章提出五条关键建议：将复杂任务分解为专用子智能体，用确定性代码执行避免概率性错误，优先支持多模态和开源协议（如MCP），确保智能体可扩展、可集成，适应模型快速演进。

AI产品智能体 MCP/工具架构设计多模态生产部署

推荐理由：这些技巧直接来自Google Cloud的实战经验，为开发者构建可靠、可维护的AI智能体提供了具体方法论，对行业从原型到落地的工程实践有重要参考价值。

00:33

Google Developers Blog（博客/媒体）

Google 宣布 Gemini Embedding 2 正式可用，该模型能将文本、图像、视频、音频和文档映射到统一的语义空间，支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能，支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。

AI模型 Gemini Embedding 2 多模态智能体向量嵌入 RAG

推荐理由：对需要跨模态语义搜索和智能体构建的开发者而言，Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量，值得关注其在实际部署中的表现。

5月12日

21:55

AK@_akhaliq

阿里发布Qwen-Image-2.0技术报告，介绍了新一代多模态图像生成模型。该模型在文本到图像生成、图像编辑和风格迁移等任务上表现出色，支持高分辨率输出和细粒度控制。报告详细阐述了模型架构、训练方法和性能评估，表明其在多项基准测试中达到领先水平。这对于推动多模态AI发展和实际应用具有重要意义。

论文多模态图像生成 Qwen 技术报告

推荐理由：Qwen-Image-2.0的发布展示了阿里在多模态生成领域的持续进步，为图像生成任务提供了新的基准和工具，值得相关从业者关注。

21:55

AK@_akhaliq

TMAS（多智能体协同扩展测试时计算）是一种新方法，通过让多个AI智能体协同工作来提升模型推理能力，类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数，仅通过集成多个智能体在测试时分配计算资源，在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径，为资源有限的研究团队提供新思路。

论文推理模型智能体多模态协同计算测试时扩展

推荐理由：TMAS探索了多智能体协同扩展测试时计算的范式，无需额外训练即可提升模型性能，对推理模型和智能体系统的发展具有参考价值。

19:11

arXiv cs.AI@Ishpuneet Singh, Gursmeep Kaur, Uday Pratap Singh Atwal, Guramrit Singh, Gurjot Singh, Maninder Singh

本文发布了BEACON（Behavioral Engine for Authentication & Continuous Monitoring），一个大型多模态行为数据集，包含28名玩家79次《Valorant》游戏会话的430GB同步数据，涵盖鼠标动力学、键盘事件、网络包、屏幕录制、硬件元数据和游戏配置。该数据集旨在填补现有行为认证基准在规模、模态和上下文同步方面的不足，适用于连续认证、行为画像、用户漂移和多模态表示学习研究。数据集和代码已在Hugging Face和GitHub上开源，为下一代行为指纹和网络安全模型提供可复现的基准。

论文多模态行为认证数据集 AI安全

推荐理由：该数据集以高精度、高认知负担的战术射击游戏为测试场景，为行为生物特征研究提供了真实且严苛的基准，对AI安全和连续认证领域具有重要参考价值。

19:11

arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed

CADBench 是一个统一的多模态基准测试，用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本，涵盖六个基准家族（基于DeepCAD、Fusion 360等）、五种输入模态（如网格、渲染图）和六项指标（几何保真度、可执行性等）。评估了11个CAD专用及通用视觉语言系统，生成超过140万CAD程序。结果显示，在理想输入下专用模型优于通用模型，但模型在几何复杂度和模态变化下表现脆弱，且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。

论文 CAD程序生成多模态基准测试 3D重建工程自动化

推荐理由：为学界和工业界提供了一个标准化的评估框架，有助于澄清现有CAD程序生成方法的优劣及失败模式，尤其对工程设计自动化领域具有直接参考价值。

19:10

arXiv: OpenAI@David F. Ramirez, Tim L. Overman, Kristen Jaskie, Marv Kleine, Andreas Spanias

该研究探索将大型语言-视觉模型（LLVM）应用于遥感SAR图像的自动目标识别（ATR）。基于MSTAR公共数据集，研究者构建了包含描述性文本和问答对的训练基准，并利用CLIP和LLaVA等模型进行参数高效微调。实验在识别军事车辆类型等细微特征上达到98%的准确率，显著提升了机器辅助遥感ATR在复杂环境下的能力。这项工作展示了LLVM在合成孔径雷达分析中的潜力，为军事和情报领域的自动化目标识别提供了新途径。

论文多模态 SAR图像自动目标识别 LLaVA CLIP 军事/遥感

推荐理由：该研究首次将LLVM迁移至SAR图像分析，并基于MSTAR数据集建立带标注的ATR基准，为多模态模型在遥感军事应用中的落地提供了可复现的方法论与评估框架。

17:35

AK@_akhaliq

Pixal3D是一个新的3D生成方法，能够从单张或多张图像生成像素对齐的3D模型。该方法利用像素对齐的表示方式，提高了生成3D模型的几何和纹理精度。相关论文和代码已发布，为3D内容创作提供了更高效的工具。该技术有望推动AR/VR、游戏和影视领域的3D资产自动化生成。

论文 3D生成像素对齐多模态论文

推荐理由：Pixal3D通过像素对齐提升3D生成质量，对于自动化3D建模和数字内容创作具有实际应用价值，值得关注。

17:19

歸藏(guizang.ai)@op7418

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

AI模型图像生成视频生成 GPT-image-2.0 Seedance 2.0 多模态

推荐理由：对于AI生成领域从业者，GPT-image-2.0和Seedance 2.0的发布代表了图像和视频生成技术的最新进展，值得关注其在实际应用中的表现和潜在影响。

17:19

歸藏(guizang.ai)@op7418

前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态，并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联，它将所有模态统一在一个模型中，实现任意模态下的实时交互，用户可以随时打断、补充，AI 会持续关注用户状态并输出结果。模型由前台交互模型（每200毫秒处理输入并输出）和后台推理模型（处理复杂推理和长任务）两部分组成，最终提供实时交互和重度任务处理的能力。

AI模型多模态交互模型 Thinking Machines 实时

推荐理由：该模型打破了传统 AI 交互的固定对话模式，实现了真正的多模态实时交互，可能重新定义人机交互的标准。对于从事 AI 产品和交互设计的从业者而言，这是一个值得关注的技术方向。

5月11日

22:18

阶跃星辰 Stepfun@Stepfun_AI

Stepfun AI在SaaStr周期间于San Mateo举办线下聚会，与SEAMATE共同主办。活动设有2分钟开放麦克风环节，供创始人、建设者分享项目。Stepfun AI将展示其统一API，支持文本、视觉、语音和音乐等多种模态。活动提供晚餐和免费酒吧至晚上9点。

行业多模态 API 线下活动 Stepfun AI

推荐理由：此活动展示了Stepfun AI的多模态API能力，对于AI产品和应用的开发者是一个了解统一接口服务的机会。线下交流也有助于行业社区建设。

22:18

岚叔@lufzzliz

用户使用GPT image 2和Gemini 3.1 pro联合生成3D生物结构展示页面，效果惊艳。该页面可用于AI教育，作者表示将复刻该项目。展示了多模态AI在科学可视化领域的应用潜力。

AI产品 GPT image 2 Gemini 3.1 pro 3D生成 AI教育多模态

推荐理由：该案例展示了GPT image 2与Gemini 3.1 pro在3D生物结构生成上的协同能力，为AI教育提供了低成本、高视觉质量的实践路径，值得关注。

22:18

阶跃星辰 Stepfun@Stepfun_AI

Google I/O大会周期间，SEAMATE与Linkloud将于5月16日在Sunnyvale举办Front Row meetup，预计吸引约500名创始人和开发者参与。活动聚焦智能体、多模态及AI原生基础设施等前沿方向。Stepfun AI团队将参与'智能体实际使用的应用'小组讨论，与Principle和Google同台。本次活动为纯开发者闭门交流，旨在促进AI Builder社区的深度碰撞。

行业 Google I/O 智能体多模态 AI开发者社区 AI原生基础设施

推荐理由：反映了AI行业从模型训练转向应用构建的趋势，智能体与多模态成为开发者核心关注点。对于关注AI原生产品和工具链的从业者而言，该活动是观察前沿方向与社区动态的重要窗口。

22:17

百度 AI Baidu@Baidu_Inc

百度用其AI图像生成模型ERNIE-Image，将母亲节经典唠叨翻译成“真正含义”，并通过趣味图片展示。例如，“有空打电话”可能意味着“想你了”。该活动利用AI技术进行创意表达，旨在传递情感而非仅仅文字表面意思。百度借此展示其多模态AI能力，同时庆祝母亲节。

AI产品图像生成 ERNIE-Image 百度多模态情感化设计

推荐理由：此为百度营销活动，展示ERNIE-Image的创意应用。对行业而言，表明AI图像生成正从技术展示转向情感化、场景化的用户体验设计。

22:16

Google AI@GoogleAI

在Google I/O大会前11天，Google AI本周密集发布6项更新：Google Health应用集成Gemini健康教练，结合可穿戴设备、健身应用和医疗记录提供主动健康指导；Gemma 4模型引入多令牌预测（MTP）机制，工作流速度提升达3倍；NotebookLM新增自动来源组织和可定制思维导图；Gemini API文件搜索工具支持多模态、自定义元数据和页面引用；Gemini API新增Webhook推送通知功能替代轮询；Nano Banana、Veo和Google Photos Remix等AI功能上线Google TV。

行业 Gemini 谷歌I/O 多模态智能体编程效率

推荐理由：此次更新覆盖健康、编程、搜索、文档协作和智能电视等多个场景，显示Google正在将AI能力系统化整合至其生态产品矩阵，对开发者生态和终端用户体验均产生实质影响。

22:16

AK@_akhaliq

Apple 推出了新的技术 TIDE，其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文，TIDE 通过在每一层引入上下文信息，可能提升模型对序列的理解和生成能力。相关论文已发布，提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义，值得从业者关注。

论文推理模型多模态 Apple Transformer改进上下文理解

推荐理由：TIDE 是对 transformer 架构的改进，可能提高模型层间的信息流动效率，尤其在长序列或复杂上下文任务中，但尚需更多评估验证其实际收益。

22:15

AK@_akhaliq

MiniCPM-o 4.5 是新一代端侧多模态大模型，支持实时全双工对话，即同时进行语音输入和输出。该模型在保持高效推理的同时，实现了文本、图像、语音等多种模态的协同理解与生成。论文已公开，展示了其在边缘设备上实现接近人类交互体验的潜力。这一进展对于智能助理、可穿戴设备等场景具有重要意义。

AI模型多模态语音交互端侧模型实时对话

推荐理由：MiniCPM-o 4.5 在端侧实现全双工多模态交互，降低了实时对话AI的部署门槛，为移动设备和物联网应用提供了新的技术路径。

11:43

arXiv cs.LG（学术论文）

STARFlow2提出了一种基于自回归归一化流（TarFlow）的统一多模态生成框架，用于处理交错的文本-图像序列。它通过在Pretzel架构中垂直交错预训练VLM流和TarFlow流，并采用深度-浅层流设计和统一的FAE潜空间，实现了文本和视觉输出的缓存友好型生成。实验表明，STARFlow2在图像生成和多模态理解基准上表现强劲，证明了自回归流可以替代扩散模型作为统一多模态建模的基础。这项工作解决了因果文本生成和迭代视觉去噪之间的结构不匹配问题，为更自然的统一生成提供了新范式。

论文多模态自回归流图像生成统一模型文本-图像

推荐理由：STARFlow2展示了自回归归一化流在多模态统一生成中的潜力，为替代基于扩散的图像生成方法提供了新思路，对多模态模型的设计和效率优化有参考价值。