AITOP

5月13日

00:33

MiniMax: News（资讯）

40

MiniMax 在其官网展示了最新模型和产品的更新，包括文本模型 MiniMax M2.7 (NEW)、语音模型 MiniMax Speech 2.8 (NEW)、视频模型 MiniMax Hailuo 2.3 / 2.3 Fast (NEW) 以及音乐模型 MiniMax Music 2.6 和 2.5+ (NEW)。此外，AI 原生应用 Agent 也被标注为新产品状态。这些更新表明 MiniMax 正在快速迭代其多模态 AI 能力，涵盖文本、语音、视频和音乐生成领域。对于开发者和企业用户，这意味着可以通过开放平台获得更先进的 AI 能力，用于构建多样化的应用场景。

AI产品 MiniMax 多模态文本生成语音合成视频生成

推荐理由：此次更新体现了 MiniMax 在 AI 多模态领域的持续投入，特别是 M2.7 和 Speech 2.8 的推出可能带来文本理解和语音合成性能的提升，值得关注其在开放平台上的实际表现。

5月11日

22:18

阶跃星辰 Stepfun@Stepfun_AI

15

Stepfun AI在SaaStr周期间于San Mateo举办线下聚会，与SEAMATE共同主办。活动设有2分钟开放麦克风环节，供创始人、建设者分享项目。Stepfun AI将展示其统一API，支持文本、视觉、语音和音乐等多种模态。活动提供晚餐和免费酒吧至晚上9点。

行业多模态 API 线下活动 Stepfun AI

推荐理由：此活动展示了Stepfun AI的多模态API能力，对于AI产品和应用的开发者是一个了解统一接口服务的机会。线下交流也有助于行业社区建设。

22:18

岚叔@lufzzliz

55

用户使用GPT image 2和Gemini 3.1 pro联合生成3D生物结构展示页面，效果惊艳。该页面可用于AI教育，作者表示将复刻该项目。展示了多模态AI在科学可视化领域的应用潜力。

AI产品 GPT image 2 Gemini 3.1 pro 3D生成 AI教育多模态

推荐理由：该案例展示了GPT image 2与Gemini 3.1 pro在3D生物结构生成上的协同能力，为AI教育提供了低成本、高视觉质量的实践路径，值得关注。

22:18

阶跃星辰 Stepfun@Stepfun_AI

40

Google I/O大会周期间，SEAMATE与Linkloud将于5月16日在Sunnyvale举办Front Row meetup，预计吸引约500名创始人和开发者参与。活动聚焦智能体、多模态及AI原生基础设施等前沿方向。Stepfun AI团队将参与'智能体实际使用的应用'小组讨论，与Principle和Google同台。本次活动为纯开发者闭门交流，旨在促进AI Builder社区的深度碰撞。

行业 Google I/O 智能体多模态 AI开发者社区 AI原生基础设施

推荐理由：反映了AI行业从模型训练转向应用构建的趋势，智能体与多模态成为开发者核心关注点。对于关注AI原生产品和工具链的从业者而言，该活动是观察前沿方向与社区动态的重要窗口。

22:17

百度 AI Baidu@Baidu_Inc

20

百度用其AI图像生成模型ERNIE-Image，将母亲节经典唠叨翻译成“真正含义”，并通过趣味图片展示。例如，“有空打电话”可能意味着“想你了”。该活动利用AI技术进行创意表达，旨在传递情感而非仅仅文字表面意思。百度借此展示其多模态AI能力，同时庆祝母亲节。

AI产品图像生成 ERNIE-Image 百度多模态情感化设计

推荐理由：此为百度营销活动，展示ERNIE-Image的创意应用。对行业而言，表明AI图像生成正从技术展示转向情感化、场景化的用户体验设计。

22:16

Google AI@GoogleAI

65

在Google I/O大会前11天，Google AI本周密集发布6项更新：Google Health应用集成Gemini健康教练，结合可穿戴设备、健身应用和医疗记录提供主动健康指导；Gemma 4模型引入多令牌预测（MTP）机制，工作流速度提升达3倍；NotebookLM新增自动来源组织和可定制思维导图；Gemini API文件搜索工具支持多模态、自定义元数据和页面引用；Gemini API新增Webhook推送通知功能替代轮询；Nano Banana、Veo和Google Photos Remix等AI功能上线Google TV。

行业 Gemini 谷歌I/O 多模态智能体编程效率

推荐理由：此次更新覆盖健康、编程、搜索、文档协作和智能电视等多个场景，显示Google正在将AI能力系统化整合至其生态产品矩阵，对开发者生态和终端用户体验均产生实质影响。

22:16

AK@_akhaliq

60

Apple 推出了新的技术 TIDE，其核心理念是让模型中的每一层都了解 token 的上下文信息。这不同于传统 transformer 仅顶层或特定层感知全局上下文，TIDE 通过在每一层引入上下文信息，可能提升模型对序列的理解和生成能力。相关论文已发布，提供了详细的技术细节。这项研究对改进大型语言模型和多模态模型的上下文利用有潜在意义，值得从业者关注。

论文推理模型多模态 Apple Transformer改进上下文理解

推荐理由：TIDE 是对 transformer 架构的改进，可能提高模型层间的信息流动效率，尤其在长序列或复杂上下文任务中，但尚需更多评估验证其实际收益。

22:15

AK@_akhaliq

60

MiniCPM-o 4.5 是新一代端侧多模态大模型，支持实时全双工对话，即同时进行语音输入和输出。该模型在保持高效推理的同时，实现了文本、图像、语音等多种模态的协同理解与生成。论文已公开，展示了其在边缘设备上实现接近人类交互体验的潜力。这一进展对于智能助理、可穿戴设备等场景具有重要意义。

AI模型多模态语音交互端侧模型实时对话

推荐理由：MiniCPM-o 4.5 在端侧实现全双工多模态交互，降低了实时对话AI的部署门槛，为移动设备和物联网应用提供了新的技术路径。