AITOP

5月13日

09:11

Runway ML@runwayml

70

Runway推出Characters功能，可将单张图片转化为实时视频智能体，以24帧/秒的HD画质流式输出，端到端延迟仅1.75秒。该技术实现了从静态图像到表情丰富、可对话视频的即时转换，标志着视频生成进入实时交互阶段。这一突破将推动虚拟角色、直播和客户服务等场景的AI应用。

AI产品视频生成智能体实时交互 Runway

推荐理由：Runway Characters将视频生成延迟降至1.75秒，实现实时交互，为AI视频智能体在对话和直播领域的落地提供了关键技术基础。

5月12日

18:00

Ethan Mollick@emollick

60

OpenAI推出了gpt-realtime-2语音模型，该模型原生处理语音而非转录为文本，因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平，而新版被形容为“更聪明”，但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升，但缺乏具体指标也引发了对透明度的讨论。

AI模型语音模型 gpt-realtime-2 OpenAI 实时交互

推荐理由：gpt-realtime-2的发布表明OpenAI在语音AI领域持续迭代，直接提升交互体验。但由于缺乏基准对比，开发者需自行评估其实际性能。