AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:多语言×
5月14日
01:10
Noam Shazeer@NoamShazeer
65
Google 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。
AI模型Gemini语音智能体函数调用多语言推理模型

推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。
01:10
IT之家(博客/媒体)
55
谷歌在 Android Show 上宣布推出 AI 语音听写功能 Rambler,集成于 Gboard 输入法。该功能由 Gemini 多语言模型驱动,能自动删除填充词(如“呃”“啊”),并理解句中的即时修正。Rambler 支持“代码切换”,即在同一句话中混合使用多种语言而不丢失上下文。谷歌强调该功能不会存储语音录音,结合设备端与云端处理以保护隐私。初期仅限三星 Galaxy 和谷歌 Pixel 手机在夏季上线,后续扩展至其他 Android 设备。
AI产品Gemini语音听写Gboard多语言隐私保护

推荐理由:多语言混合输入是很多用户的痛点,Rambler 用 Gemini 模型解决了跨语言听写时的上下文断裂问题,经常用语音输入或需要中英混说的用户值得关注。
5月13日
21:35
MiniMax: News(资讯)
30
MiniMax 发布了其最新语音模型 Speech 2.8,在语音合成质量、自然度和实时性上均有显著提升。该模型支持多语言、多情感和多种说话风格,能够生成高度逼真的语音。Speech 2.8 在多个基准测试中表现优异,为语音交互、内容创作等场景提供了更强大的工具。
AI模型语音合成MiniMaxSpeech 2.8多语言情感表达

推荐理由:语音合成质量再上台阶,做语音助手、有声内容或虚拟主播的团队可以直接用上更自然的声音,建议体验一下效果。
5月12日
19:11
arXiv: OpenAI@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney
65
GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型,专门用于识别42种个人身份信息(PII)实体类型,支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题,研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中,该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源,旨在促进PII检测的研究和实际部署。
论文个人信息提取多语言开源/仓库合成数据隐私安全

推荐理由:该模型以较小参数量在PII提取任务上达到领先性能,并采用合成数据方法规避隐私风险,为数据清洗和合规检测提供了实用工具。开源策略有助于社区进一步优化和适配多语言场景。
5月11日
22:15
阿里云 Alibaba Cloud@alibaba_cloud
45
阿里云通义实验室与AI Singapore联合举办开发者会议,探讨如何构建真正理解东南亚语言和文化的AI。东南亚有超过7亿人口、1200多种语言,AI Singapore通过利用Qwen、Gemma等开源基础模型,与本地社区合作整合语言和文化背景,开发更包容的LLM。此举旨在缩小全球技术与本地文化之间的鸿沟,推动AI普惠化。
行业阿里云AI Singapore多语言开源/仓库本地化

推荐理由:这表明阿里云正推动开源模型在多语言、多文化场景的落地,对东南亚市场的本地化AI发展具有实际意义,值得关注相关生态进展。