5月15日
5月14日
13:37
深度求索 DeepSeek@deepseek_ai
78
DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。

推荐理由:做智能体开发或需要强推理能力的团队,DeepSeek 这次直接给了两个新选择——V3.2 可立即上手,Speciale 适合追求极致推理的 API 用户,值得关注技术报告里的细节。
01:10
Noam Shazeer@NoamShazeer
65
Google 发布了 Gemini 3.1 Flash Live 模型,专为生产级可靠性设计。该模型在复杂函数调用和长时推理基准测试中领先,支持多语言,已用于搜索直播功能。开发者可借此构建可扩展的语音优先智能体,完成复杂任务。
推荐理由:语音智能体开发者终于有了一个生产级模型——Gemini 3.1 Flash Live 在复杂函数调用和长时推理上表现领先,做语音交互的团队可以直接上手试试。
5月13日
5月12日
19:11
arXiv cs.AI@Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal, Duc N. M Hoang, Fartash Faghri, Yizhe Zhang, Minsik Cho, Mehrdad Farajtabar
35
该研究提出了一种无需训练的诊断框架,通过分析每token、每问题、每教师的梯度对齐度,揭示了on-policy蒸馏的有效条件。研究发现:在模型错误回答时蒸馏信号更有效,正确回答时信号噪声大;最优蒸馏配置依赖于学生模型能力和任务类型,不存在通用最优方案。该框架扩展了Google在推理模型训练中的on-policy蒸馏技术,为优化蒸馏策略提供了理论依据。
推荐理由:该研究通过细粒度分析挑战了蒸馏实践中默认假设,为选择教师模型和蒸馏配置提供了理论指导,对大规模推理模型训练具有实际参考价值。
5月11日