深度求索 DeepSeek@deepseek_ai78DeepSeek 正式发布 V3.2 和 V3.2-Speciale 两个新模型。V3.2 是 V3.2-Exp 的正式继任者,已在 App、Web 和 API 上线;V3.2-Speciale 则专注于极致推理能力,目前仅通过 API 提供。这两个模型以推理优先为设计理念,旨在更好地支持智能体(agent)场景。技术报告已同步公开。AI模型DeepSeek推理模型智能体模型发布API推荐理由:做智能体开发或需要强推理能力的团队,DeepSeek 这次直接给了两个新选择——V3.2 可立即上手,Speciale 适合追求极致推理的 API 用户,值得关注技术报告里的细节。
DeepSeek: GitHub 新仓库(资讯)75DeepSeek 开源了 DeepEP,这是首个专为 MoE(混合专家)模型设计的专家并行(EP)通信库。它提供了高吞吐、低延迟的 GPU 内核,支持训练和推理中的全到全通信。DeepEP 还支持低精度操作,如 FP8,并引入了高效的稀疏通信技术。该库已开源在 GitHub 上,开发者可以访问其 Pull Requests 页面了解更多。AI模型DeepSeekMoEEP通信库开源/仓库分布式训练推荐理由:MoE 模型的通信瓶颈一直是训练和推理的痛点,DeepEP 专为此优化,做大规模分布式训练的团队值得关注。
IT之家(博客/媒体)30坚果投影 N5S Pro Max 和 N5S Ultra 价格公布,国补到手价分别为 7999 元和 9999 元,明日 20 点开售。Pro Max 版拥有 8000:1 原生对比度、4800 ISO 亮度,支持 HDR Vivid 和杜比视界;Ultra 版则提升至 9000:1 对比度、6000 ISO 亮度,并配备无损护眼三色激光和满血 DeepSeek 接入。两款均搭载 MT9681 芯片,支持米家互联和 Bonfire OS 系统,可在 1.9 米距离投射 100 英寸巨幕。AI产品坚果投影N5S系列智能投影DeepSeek家庭影院推荐理由:家庭影院爱好者或大屏游戏玩家,这两款投影在亮度和对比度上都有明显提升,特别是 Ultra 版接入 DeepSeek 后能实现智能交互,值得关注明日开售。
IT之家(博客/媒体)60市场监管总局附条件批准腾讯收购喜马拉雅,要求不得涨价或限制主播多平台入驻,以维护市场公平。宇树科技发布全球首款量产载人变形机甲GD01,售价390万元起,主打可变形与载人功能。微信明确不会开发已读和访客功能,相关测试也已停止。DeepSeek上线聊天记录搜索功能,目前处于灰度测试阶段,用户可通过关键词快速定位历史对话。此外,理想汽车发布自研马赫M100芯片,单芯算力1280TOPs,号称全球最强。行业腾讯喜马拉雅宇树科技载人机甲DeepSeek微信理想汽车芯片推荐理由:腾讯收购喜马拉雅获批附带严格条件,做内容平台或音频行业的从业者值得关注监管风向;宇树载人机甲390万起售,机器人赛道玩家可以看看量产形态的定价逻辑。
DeepSeek: GitHub 新仓库(资讯)0DeepSeek 发布了 DeepEP,这是一个专为 MoE(混合专家)模型设计的高效通信库,旨在优化专家并行场景下的 GPU 通信效率。它支持低延迟推理和高吞吐量训练,并提供了节点内和节点间的通信优化。该库还引入了低精度操作和 FP8 调度,进一步提升了性能。对于使用 MoE 架构的团队,DeepEP 可以直接集成到现有框架中,显著减少通信开销。AI模型MoE通信库DeepSeek开源/仓库GPU优化推荐理由:MoE 模型的通信瓶颈是训练和推理的常见痛点,DeepEP 直接解决了这个问题。做大规模 MoE 训练或推理的团队,值得集成试试。
DeepSeek: GitHub 新仓库(资讯)70DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。AI模型DeepSeekFlashMLA开源/仓库推理优化Hopper GPU推荐理由:DeepSeek 开源 FlashMLA 解决了大模型推理中 MLA 解码的性能瓶颈,做推理优化和模型部署的开发者可以直接拿来用,值得一试。
DeepSeek: GitHub 新仓库(资讯)70DeepSeek 官方在 GitHub 上发布了 awesome-deepseek-agent 仓库,汇集了基于 DeepSeek 模型构建智能体的最佳实践、工具和示例。该资源库旨在帮助开发者快速上手使用 DeepSeek 模型开发 AI 智能体,包括 API 调用、提示词工程、工具集成等关键内容。对于希望利用 DeepSeek 模型构建生产级智能体应用的开发者来说,这是一个一站式的参考资源。AI产品智能体DeepSeek开源/仓库最佳实践开发者工具推荐理由:DeepSeek 官方整理的智能体开发资源库,做 AI 智能体的开发者可以直接拿来参考,省去自己摸索的时间。
arXiv: DeepSeek@Claudia Benavides Cantos, Eduardo C. Garrido-Merchán55一项研究对比了Claude、GPT-4o、DeepSeek和Grok四种大型语言模型在西班牙和德国两个国家背景下分配固定社会预算的能力。每个模型在每个国家被询问六次,共生成48次分配结果,并与OECD参考预算进行比较。研究发现,所有模型存在系统性偏差:养老金分配不足近三倍,住房和就业分配过度分别达四倍和两倍。模型间主要差异不在于地缘政治倾向,而在于预算集中与分散策略,只有Claude表现出对国家背景的敏感性。研究认为,语言模型可辅助专家进行预算讨论,但不可替代。论文GPTClaudeDeepSeekGrok公共政策推荐理由:该研究揭示了LLM在公共政策模拟中的系统性偏差,对AI辅助决策的可靠性提出警醒,值得政策制定者和AI开发者关注。