Noam Shazeer@NoamShazeer65Google 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。AI模型Gemini语音智能体函数调用多语言推理模型推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。
IT之家(博客/媒体)55谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler,集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动,能自动删除填充词(如“呃”“啊”),并理解句中的即时修正。Rambler 支持“代码切换”,即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音,结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线,后续扩展至其他 Android 设备。AI产品Gemini语音听写Gboard多语言隐私保护推荐理由:多语言混合输入是很多用户的痛点,Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题,经常用语音输入或需要中英混说的用户值得关注。
MiniMax: News(资讯)30MiniMax 发布了其最新语音模型 Speech 2.8,在语音合成质量、自然度和实时性上均有显著提升。该模型支持多语言、多情感和多种说话风格,能够生成高度逼真的语音。Speech 2.8 在多个基准测试中表现优异,为语音交互、内容创作等场景提供了更强大的工具。AI模型语音合成MiniMaxSpeech 2.8多语言情感表达推荐理由:语音合成质量再上台阶,做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音,建议体验一下效果。
arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney65GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。论文个人信息提取多语言开源/仓库合成数据隐私安全推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。
阿里云 Alibaba Cloud@alibaba_cloud45阿里云通义实验室与AI Singapore联合举办开发者会议,探讨如何构建真正理解东南亚语言和文化的AI。东南亚有超过7亿人口、1200多种语言,AI Singapore通过利用Qwen、Gemma等开源基础模型,与本地社区合作整合语言和文化背景,开发更包容的LLM。此举旨在缩小全球技术与本地文化之间的鸿沟,推动AI普惠化。行业阿里云AI Singapore多语言开源/仓库本地化推荐理由:这表明阿里云正推动开源模型在多语言、多文化场景的落地,对东南亚市场的本地化AI发展具有实际意义,值得关注相关生态进展。