VOL.2026.05.13·481 STORIES·AITOP DAILY

AIHOT日报

二〇二六年五月十三日 星期三DAILY · 每早八时
01

模型发布/更新

Model Releases
5

Claude 3.5 Sonnet 在 SWE-bench Verified 上刷新纪录

官方Anthropic: Engineering

Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率,较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力,包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异,尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。

DeepSeek 开源 FlashMLA,高效 MLA 解码内核

官方DeepSeek: GitHub 新仓库

DeepSeek 开源了 FlashMLA,一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化,已在生产中部署。该项目支持 BF16 精度,分页和块大小 64 的块大小,并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算,显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。

Kimi K2 开源:Moonshot 发布新一代智能体模型

官方Moonshot AI: Kimi Blog

Moonshot AI 正式开源了其最新的智能体模型 Kimi K2,该模型在多个基准测试中表现优异,尤其在代码生成、工具使用和复杂推理任务上超越了 GPT-4 和 Claude 3.5。K2 采用混合专家架构,拥有 1.5 万亿参数,但通过稀疏激活机制实现了高效推理。此次开源不仅提供了模型权重,还包括了训练代码和详细的技术报告,旨在推动智能体技术的民主化。对于开发者而言,K2 的开放意味着可以基于其强大的工具调用能力构建更自主的 AI 应用。

Anthropic 提出托管智能体架构:将大脑与手解耦

官方Anthropic: Engineering

Anthropic 发布了一篇关于托管智能体(Managed Agents)的工程博客,提出将智能体的“大脑”(规划与推理)与“手”(执行工具)解耦的架构设计。这种架构允许更灵活地扩展智能体能力,同时降低复杂度和成本。文章详细介绍了如何通过托管智能体实现更可靠、可维护的自动化系统。这对于构建大规模 AI 自动化系统的开发者具有重要参考价值。

Anthropic 发布 Claude Opus 4.7:更强编程与智能体能力

官方Anthropic: Newsroom

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7,这是其最新旗舰模型。该模型在编程、智能体、视觉和多步骤任务上性能显著提升,尤其在需要深度推理和一致性的复杂工作中表现更佳。Opus 4.7 的推出进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力,为开发者和企业用户提供了更可靠的自动化解决方案。

02

产品发布/更新

Product
5

DeepSeek 开源 DeepGEMM:高性能矩阵乘法库

官方DeepSeek: GitHub 新仓库

DeepSeek 开源了 DeepGEMM,一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM,性能优异,在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译(JIT)方式,核心代码仅约 300 行,但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队,这是一个可以直接集成的高效工具。

Anthropic 发布 Claude Code 质量问题复盘报告

官方Anthropic: Engineering

Anthropic 针对近期用户报告的 Claude Code 质量问题进行了调查,发现根源在于三个独立的代码变更。这三个变更分别影响了代码生成准确性、上下文理解能力和错误处理逻辑。Anthropic 已回滚相关变更并加强了测试流程,同时承诺未来将更透明地沟通模型更新细节。此次事件提醒开发者,AI 编程助手仍处于快速迭代阶段,质量波动在所难免。

Anthropic 发布构建有效智能体指南

官方Anthropic: Engineering

Anthropic 发布了一篇关于如何构建有效 AI 智能体的工程指南,基于其在大模型应用中的实践经验。文章提出了智能体设计的核心原则:保持简单、明确目标、善用工具。它区分了工作流(预定义步骤)和智能体(动态决策)两种模式,并给出了从简单检索到复杂多步骤任务的架构建议。对于开发者而言,这是一份从理论到落地的实用参考,能帮助避免过度设计,提升智能体系统的可靠性和效率。

DeepSeek 发布 awesome-deepseek-agent 智能体资源库

官方DeepSeek: GitHub 新仓库

DeepSeek 官方在 GitHub 上发布了 awesome-deepseek-agent 仓库,汇集了基于 DeepSeek 模型构建智能体的最佳实践、工具和示例。该资源库旨在帮助开发者快速上手使用 DeepSeek 模型开发 AI 智能体,包括 API 调用、提示词工程、工具集成等关键内容。对于希望利用 DeepSeek 模型构建生产级智能体应用的开发者来说,这是一个一站式的参考资源。

微软MDASH框架登顶CyberGym,协调100+模型在Win11抓虫

官方IT之家

微软CEO纳德拉宣布,其AI安全系统MDASH在5月补丁星期二活动中协助发现Windows 11的16个CVE漏洞。MDASH采用超过100个专用智能体,通过对抗式流程降低误报,在私有驱动StorageDrive上实现21个植入漏洞全检出且误报为0。在CyberGym公共基准上,MDASH以88.45%的准确率领先第二名(83.1%)约5个百分点。该系统还回溯了clfs.sys和tcpip.sys的历史漏洞,召回率分别达96%和100%。

03

行业动态

Industry
5

Anthropic工程博客:构建可靠AI系统

官方Anthropic: Engineering

Anthropic公开了其工程博客页面,汇集了从2024年12月到2026年4月期间的数十篇技术文章。内容涵盖Claude Code质量报告、多智能体系统设计、代码执行与MCP、长时运行应用开发、Agent技能与工具使用等核心主题。这些文章深入介绍了Anthropic在可靠AI系统构建、智能体评估、安全自动化等方面的工程实践与经验教训。

Parameter Golf:AI辅助研究的极限探索

官方OpenAI Blog

OpenAI举办的Parameter Golf活动吸引了超过1000名参与者和2000多份提交,旨在探索在严格约束下AI辅助机器学习研究、编码智能体、量化及新型模型设计。活动揭示了AI在极端资源限制下的科研潜力,强调了人与AI协作的创新边界。关键成果包括对量化技术的优化和新型模型架构的涌现,表明AI不仅能加速常规任务,还能激发人类研究者的创意。

开放模型生态如何复利增长

X·KOLX:Nathan Lambert: Interconnects (@Nathan Lambert)

文章探讨了中国AI领域以高参与度和开放为先的生态系统如何形成复利效应。中国模型生态中,开源模型的使用和贡献形成了正向循环,吸引了更多开发者,加速了技术迭代。这种开放模式促进了创新,降低了使用门槛,使得中国AI社区在全球范围内具有竞争力。文章强调了开源生态对于推动AI发展的重要性,并与其他封闭或半封闭生态进行了对比。

微软与SK海力士加强合作,降低对英伟达AI依赖

官方IT之家

微软正试图在AI基础设施领域降低对英伟达的依赖,并加强与SK海力士等新伙伴的合作。SK海力士CEO郭鲁正本周将参加微软CEO闭门峰会,并与比尔·盖茨和纳德拉会面。SK海力士已成为微软首款自研AI推理加速器Maia 200的唯一供应商,该芯片已在微软数据中心部署,单位成本性能提升约30%。Maia 200采用高带宽存储堆叠,总容量216GB,带宽达7TB/s,可减少AI模型性能瓶颈。此外,SK海力士也继续为英伟达GPU供应高带宽存储器,并与谷歌、亚马逊云科技合作。

Isomorphic Labs筹21亿美元加速AI药物研发

X·KOLX:Demis Hassabis (@demishassabis)

Isomorphic Labs(由DeepMind创始人Demis Hassabis创立)宣布获得21亿美元新融资,用于利用AI技术重新定义药物发现过程。该公司此前基于AlphaFold技术,致力于通过AI模型预测蛋白质结构并加速新药开发。这笔巨额投资将推动其“解决所有疾病”的长期目标。

04

论文研究

Research
5

JAW框架揭示AI工作流劫持风险:GitHub Actions和n8n受影响

X·KOLX:arXiv: Anthropic (@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao)

研究人员设计了首个检测与利用框架JAW,针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入,诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析,成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露,并获得致谢、修复和漏洞赏金。

Anthropic 研究:Claude 3.5 Haiku 内部机制如同生物系统

官方Anthropic: Transformer Circuits

Anthropic 发布了一项关于 Claude 3.5 Haiku 内部机制的研究,将其类比为生物学研究。他们通过构建“归因图”来追踪模型在多种任务中的推理路径,发现模型内部存在类似生物体的模块化结构和功能分工。这项研究揭示了大型语言模型如何从输入到输出逐步构建理解,例如在数学推理中,模型会先识别问题类型,再调用特定计算模块。该工作为理解 AI 黑箱提供了新视角,有助于提升模型的可解释性和安全性。

Claude Sonnet 4.5 中发现情感概念表征并影响输出

官方Anthropic: Transformer Circuits

Sofroniew 等人在 2026 年的研究中发现,Claude Sonnet 4.5 内部存在情感概念的表征,并且这些表征对模型的输出有因果影响。研究通过探针和干预实验,定位了与“快乐”、“悲伤”、“愤怒”等情感相关的神经元活动模式。当人为激活或抑制这些情感表征时,模型的回答风格和内容会相应改变。这一发现揭示了大型语言模型如何模拟情感,并为理解其内部机制提供了新视角。

三机制框架:LLM 如何处理训练知识与上下文冲突

X·KOLX:arXiv: DeepSeek (@Pruthvinath Jeripity Venkata)

该研究提出一个三机制框架,解释大语言模型在处理训练知识与上下文文档冲突时的矛盾现象。先前研究结果不一:有的发现模型顽固保留训练答案,有的则发现模型几乎完全遵循上下文。研究者认为这是因为未区分三种不同的处理情境:机制1(单源更新,主导因素为证据连贯性)、机制2(竞争整合,主导因素为参数确定性)、机制3(任务适配选择,主导因素为任务知识需求)。通过 9970 次 API 调用,在 Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick 和 DeepSeek V3 上验证了该框架,确认了机制2的确定性梯度,并发现任务框架能将上下文遵循率从近100%翻转至6-71%。

Attractor Models:通过不动点求解让循环Transformer可扩展

X·KOLX:arXiv cs.AI (@Jacob Fein-Ashley, Paria Rashidinejad)

论文提出Attractor Models,用隐式微分求解不动点替代传统循环Transformer的显式迭代,训练内存不随有效深度增长,迭代次数由收敛自适应决定。在语言模型预训练中,770M参数模型超越1.3B Transformer(训练数据多一倍),困惑度降低46.6%,下游准确率提升19.7%。在推理任务中,27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率,而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象:训练后可在推理时移除求解器而性能几乎不降。

05

技巧与观点

Tips & Takes
3

在脚本 shebang 行中使用 LLM:直接运行自然语言脚本

官方Simon Willison’s Weblog

Simon Willison 分享了一个技巧:在脚本的 shebang 行中直接调用 LLM,让自然语言文本文件像可执行脚本一样运行。最简单的用法是 `#!/usr/bin/env -S llm -f`,后面跟自然语言指令即可生成内容(如 SVG)。还可以通过 `-T` 选项调用工具(如获取当前时间写俳句),甚至嵌入 YAML 模板定义 Python 函数作为工具,实现复杂计算。这个模式让 AI 模型无缝融入 Unix 脚本生态,开发者可以直接用自然语言编写可执行脚本。

GitHub初学者指南:开始OSS贡献

X·KOLX:GitHub Blog (@Kedasha Kerr)

GitHub博客发布了一篇为初学者设计的开源贡献入门指南,详细介绍了如何找到参与开源社区的机会。文章涵盖了从选择合适的项目到提交Pull Request的完整流程,包括如何利用标签(如“good first issue”)定位适合新手的任务。该指南旨在降低开源贡献的技术门槛,帮助新人快速融入开源生态。

Kimi API 助手用 Context Caching 提速:Golang 实践

官方Moonshot AI: Kimi Blog

本文以 Golang 为例,展示了如何利用 Kimi API 的 Context Caching 功能来加速 API 调用,降低延迟和成本。Context Caching 允许开发者缓存频繁使用的上下文数据,避免重复传输,从而提升响应速度。文章提供了详细的代码示例和配置说明,帮助开发者快速集成。这项技术对于构建高效、低成本的 AI 助手应用具有重要意义。

481
今日事件
257
一手报道
24
新模型
53
信源
AITOP · 编辑系统自动生成