AITOP

5月14日

01:10

Noam Shazeer@NoamShazeer

65

Google 发布了 Gemini 3.1 Flash Live 模型，专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先，支持多语言，已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体，完成复杂任务。

AI模型 Gemini 语音智能体函数调用多语言推理模型

推荐理由：语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先，做语音交互的团队可以直接上手试试。

01:10

IT之家（博客/媒体）

55

谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler，集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动，能自动删除填充词（如“呃”“啊”），并理解句中的即时修正。Rambler 支持“代码切换”，即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音，结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线，后续扩展至其他 Android 设备。

AI产品 Gemini 语音听写 Gboard 多语言隐私保护

推荐理由：多语言混合输入是很多用户的痛点，Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题，经常用语音输入或需要中英混说的用户值得关注。

5月13日

21:35

MiniMax: News（资讯）

30

MiniMax 发布了其最新语音模型 Speech 2.8，在语音合成质量、自然度和实时性上均有显著提升。该模型支持多语言、多情感和多种说话风格，能够生成高度逼真的语音。Speech 2.8 在多个基准测试中表现优异，为语音交互、内容创作等场景提供了更强大的工具。

AI模型语音合成 MiniMax Speech 2.8 多语言情感表达

推荐理由：语音合成质量再上台阶，做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音，建议体验一下效果。

5月12日

19:11

arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney

65

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由：该模型以较小参数量在PII提取任务上达到领先性能，并采用合成数据方法规避隐私风险，为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。

5月11日

22:15

阿里云 Alibaba Cloud@alibaba_cloud

45

阿里云通义实验室与AI Singapore联合举办开发者会议，探讨如何构建真正理解东南亚语言和文化的AI。东南亚有超过7亿人口、1200多种语言，AI Singapore通过利用Qwen、Gemma等开源基础模型，与本地社区合作整合语言和文化背景，开发更包容的LLM。此举旨在缩小全球技术与本地文化之间的鸿沟，推动AI普惠化。

行业阿里云 AI Singapore 多语言开源/仓库本地化

推荐理由：这表明阿里云正推动开源模型在多语言、多文化场景的落地，对东南亚市场的本地化AI发展具有实际意义，值得关注相关生态进展。