AI工作流劫持风险曝光，Claude内部机制揭秘

模型发布/更新

Model Releases

5 篇

Claude 3.5 Sonnet 在 SWE-bench Verified 上刷新纪录

官方Anthropic: Engineering

Anthropic 宣布其 Claude 3.5 Sonnet 模型在 SWE-bench Verified 基准测试中取得了 49.7% 的通过率，较此前最佳成绩提升了约 10 个百分点。该测试评估 AI 模型解决真实 GitHub 问题的能力，包括代码修复、功能实现等。Claude 3.5 Sonnet 在多个类别中表现优异，尤其在需要多步推理和上下文理解的复杂任务上。这一进展表明 AI 在软件工程自动化领域正快速接近人类水平。

DeepSeek 开源 FlashMLA，高效 MLA 解码内核

官方DeepSeek: GitHub 新仓库

DeepSeek 开源了 FlashMLA，一个专为英伟达 Hopper GPU 优化的高效 MLA 解码内核。它针对可变长度序列进行了优化，已在生产中部署。该项目支持 BF16 精度，分页和块大小 64 的块大小，并提供预填充和分页预填充内核。FlashMLA 通过优化内存访问和计算，显著提升了推理性能。开发者可以直接在 GitHub 上获取代码和文档。

Kimi K2 开源：Moonshot 发布新一代智能体模型

官方Moonshot AI: Kimi Blog

Moonshot AI 正式开源了其最新的智能体模型 Kimi K2，该模型在多个基准测试中表现优异，尤其在代码生成、工具使用和复杂推理任务上超越了 GPT-4 和 Claude 3.5。K2 采用混合专家架构，拥有 1.5 万亿参数，但通过稀疏激活机制实现了高效推理。此次开源不仅提供了模型权重，还包括了训练代码和详细的技术报告，旨在推动智能体技术的民主化。对于开发者而言，K2 的开放意味着可以基于其强大的工具调用能力构建更自主的 AI 应用。

Anthropic 提出托管智能体架构：将大脑与手解耦

官方Anthropic: Engineering

Anthropic 发布了一篇关于托管智能体（Managed Agents）的工程博客，提出将智能体的“大脑”（规划与推理）与“手”（执行工具）解耦的架构设计。这种架构允许更灵活地扩展智能体能力，同时降低复杂度和成本。文章详细介绍了如何通过托管智能体实现更可靠、可维护的自动化系统。这对于构建大规模 AI 自动化系统的开发者具有重要参考价值。

Anthropic 发布 Claude Opus 4.7：更强编程与智能体能力

官方Anthropic: Newsroom

Anthropic 于 2026 年 4 月 16 日发布了 Claude Opus 4.7，这是其最新旗舰模型。该模型在编程、智能体、视觉和多步骤任务上性能显著提升，尤其在需要深度推理和一致性的复杂工作中表现更佳。Opus 4.7 的推出进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力，为开发者和企业用户提供了更可靠的自动化解决方案。

产品发布/更新

Product

5 篇

DeepSeek 开源 DeepGEMM：高性能矩阵乘法库

官方DeepSeek: GitHub 新仓库

DeepSeek 开源了 DeepGEMM，一个专为 FP8 矩阵乘法设计的高性能库。该库支持密集和 MoE 分组 GEMM，性能优异，在 NVIDIA Hopper GPU 上可达 1350+ TFLOPS。DeepGEMM 采用轻量级即时编译（JIT）方式，核心代码仅约 300 行，但通过精细的调优实现了接近理论峰值的性能。对于使用 FP8 进行训练或推理的团队，这是一个可以直接集成的高效工具。

Anthropic 发布 Claude Code 质量问题复盘报告

官方Anthropic: Engineering

Anthropic 针对近期用户报告的 Claude Code 质量问题进行了调查，发现根源在于三个独立的代码变更。这三个变更分别影响了代码生成准确性、上下文理解能力和错误处理逻辑。Anthropic 已回滚相关变更并加强了测试流程，同时承诺未来将更透明地沟通模型更新细节。此次事件提醒开发者，AI 编程助手仍处于快速迭代阶段，质量波动在所难免。

Anthropic 发布构建有效智能体指南

官方Anthropic: Engineering

Anthropic 发布了一篇关于如何构建有效 AI 智能体的工程指南，基于其在大模型应用中的实践经验。文章提出了智能体设计的核心原则：保持简单、明确目标、善用工具。它区分了工作流（预定义步骤）和智能体（动态决策）两种模式，并给出了从简单检索到复杂多步骤任务的架构建议。对于开发者而言，这是一份从理论到落地的实用参考，能帮助避免过度设计，提升智能体系统的可靠性和效率。

DeepSeek 发布 awesome-deepseek-agent 智能体资源库

官方DeepSeek: GitHub 新仓库

DeepSeek 官方在 GitHub 上发布了 awesome-deepseek-agent 仓库，汇集了基于 DeepSeek 模型构建智能体的最佳实践、工具和示例。该资源库旨在帮助开发者快速上手使用 DeepSeek 模型开发 AI 智能体，包括 API 调用、提示词工程、工具集成等关键内容。对于希望利用 DeepSeek 模型构建生产级智能体应用的开发者来说，这是一个一站式的参考资源。

微软MDASH框架登顶CyberGym，协调100+模型在Win11抓虫

官方IT之家

微软CEO纳德拉宣布，其AI安全系统MDASH在5月补丁星期二活动中协助发现Windows 11的16个CVE漏洞。MDASH采用超过100个专用智能体，通过对抗式流程降低误报，在私有驱动StorageDrive上实现21个植入漏洞全检出且误报为0。在CyberGym公共基准上，MDASH以88.45%的准确率领先第二名（83.1%）约5个百分点。该系统还回溯了clfs.sys和tcpip.sys的历史漏洞，召回率分别达96%和100%。

行业动态

Industry

5 篇

Anthropic工程博客：构建可靠AI系统

官方Anthropic: Engineering

Anthropic公开了其工程博客页面，汇集了从2024年12月到2026年4月期间的数十篇技术文章。内容涵盖Claude Code质量报告、多智能体系统设计、代码执行与MCP、长时运行应用开发、Agent技能与工具使用等核心主题。这些文章深入介绍了Anthropic在可靠AI系统构建、智能体评估、安全自动化等方面的工程实践与经验教训。

Parameter Golf：AI辅助研究的极限探索

官方OpenAI Blog

OpenAI举办的Parameter Golf活动吸引了超过1000名参与者和2000多份提交，旨在探索在严格约束下AI辅助机器学习研究、编码智能体、量化及新型模型设计。活动揭示了AI在极端资源限制下的科研潜力，强调了人与AI协作的创新边界。关键成果包括对量化技术的优化和新型模型架构的涌现，表明AI不仅能加速常规任务，还能激发人类研究者的创意。

开放模型生态如何复利增长

X·KOLX：Nathan Lambert: Interconnects (@Nathan Lambert)

文章探讨了中国AI领域以高参与度和开放为先的生态系统如何形成复利效应。中国模型生态中，开源模型的使用和贡献形成了正向循环，吸引了更多开发者，加速了技术迭代。这种开放模式促进了创新，降低了使用门槛，使得中国AI社区在全球范围内具有竞争力。文章强调了开源生态对于推动AI发展的重要性，并与其他封闭或半封闭生态进行了对比。

微软与SK海力士加强合作，降低对英伟达AI依赖

官方IT之家

微软正试图在AI基础设施领域降低对英伟达的依赖，并加强与SK海力士等新伙伴的合作。SK海力士CEO郭鲁正本周将参加微软CEO闭门峰会，并与比尔·盖茨和纳德拉会面。SK海力士已成为微软首款自研AI推理加速器Maia 200的唯一供应商，该芯片已在微软数据中心部署，单位成本性能提升约30%。Maia 200采用高带宽存储堆叠，总容量216GB，带宽达7TB/s，可减少AI模型性能瓶颈。此外，SK海力士也继续为英伟达GPU供应高带宽存储器，并与谷歌、亚马逊云科技合作。

Isomorphic Labs筹21亿美元加速AI药物研发

X·KOLX：Demis Hassabis (@demishassabis)

Isomorphic Labs（由DeepMind创始人Demis Hassabis创立）宣布获得21亿美元新融资，用于利用AI技术重新定义药物发现过程。该公司此前基于AlphaFold技术，致力于通过AI模型预测蛋白质结构并加速新药开发。这笔巨额投资将推动其“解决所有疾病”的长期目标。

论文研究

Research

5 篇

JAW框架揭示AI工作流劫持风险：GitHub Actions和n8n受影响

X·KOLX：arXiv: Anthropic (@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao)

研究人员设计了首个检测与利用框架JAW，针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入，诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析，成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露，并获得致谢、修复和漏洞赏金。

Anthropic 研究：Claude 3.5 Haiku 内部机制如同生物系统

官方Anthropic: Transformer Circuits

Anthropic 发布了一项关于 Claude 3.5 Haiku 内部机制的研究，将其类比为生物学研究。他们通过构建“归因图”来追踪模型在多种任务中的推理路径，发现模型内部存在类似生物体的模块化结构和功能分工。这项研究揭示了大型语言模型如何从输入到输出逐步构建理解，例如在数学推理中，模型会先识别问题类型，再调用特定计算模块。该工作为理解 AI 黑箱提供了新视角，有助于提升模型的可解释性和安全性。

Claude Sonnet 4.5 中发现情感概念表征并影响输出

官方Anthropic: Transformer Circuits

Sofroniew 等人在 2026 年的研究中发现，Claude Sonnet 4.5 内部存在情感概念的表征，并且这些表征对模型的输出有因果影响。研究通过探针和干预实验，定位了与“快乐”、“悲伤”、“愤怒”等情感相关的神经元活动模式。当人为激活或抑制这些情感表征时，模型的回答风格和内容会相应改变。这一发现揭示了大型语言模型如何模拟情感，并为理解其内部机制提供了新视角。

三机制框架：LLM 如何处理训练知识与上下文冲突

X·KOLX：arXiv: DeepSeek (@Pruthvinath Jeripity Venkata)

该研究提出一个三机制框架，解释大语言模型在处理训练知识与上下文文档冲突时的矛盾现象。先前研究结果不一：有的发现模型顽固保留训练答案，有的则发现模型几乎完全遵循上下文。研究者认为这是因为未区分三种不同的处理情境：机制1（单源更新，主导因素为证据连贯性）、机制2（竞争整合，主导因素为参数确定性）、机制3（任务适配选择，主导因素为任务知识需求）。通过 9970 次 API 调用，在 Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick 和 DeepSeek V3 上验证了该框架，确认了机制2的确定性梯度，并发现任务框架能将上下文遵循率从近100%翻转至6-71%。

Attractor Models：通过不动点求解让循环Transformer可扩展

X·KOLX：arXiv cs.AI (@Jacob Fein-Ashley, Paria Rashidinejad)

论文提出Attractor Models，用隐式微分求解不动点替代传统循环Transformer的显式迭代，训练内存不随有效深度增长，迭代次数由收敛自适应决定。在语言模型预训练中，770M参数模型超越1.3B Transformer（训练数据多一倍），困惑度降低46.6%，下游准确率提升19.7%。在推理任务中，27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率，而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象：训练后可在推理时移除求解器而性能几乎不降。

技巧与观点

Tips & Takes

3 篇

481

今日事件

257

一手报道

新模型

信源

AIHOT日报

模型发布/更新

Claude 3.5 Sonnet 在 SWE-bench Verified 上刷新纪录

DeepSeek 开源 FlashMLA，高效 MLA 解码内核

Kimi K2 开源：Moonshot 发布新一代智能体模型

Anthropic 提出托管智能体架构：将大脑与手解耦

Anthropic 发布 Claude Opus 4.7：更强编程与智能体能力

产品发布/更新

DeepSeek 开源 DeepGEMM：高性能矩阵乘法库

Anthropic 发布 Claude Code 质量问题复盘报告

Anthropic 发布构建有效智能体指南

DeepSeek 发布 awesome-deepseek-agent 智能体资源库

微软MDASH框架登顶CyberGym，协调100+模型在Win11抓虫

行业动态

Anthropic工程博客：构建可靠AI系统

Parameter Golf：AI辅助研究的极限探索

开放模型生态如何复利增长

微软与SK海力士加强合作，降低对英伟达AI依赖

Isomorphic Labs筹21亿美元加速AI药物研发

论文研究

JAW框架揭示AI工作流劫持风险：GitHub Actions和n8n受影响

Anthropic 研究：Claude 3.5 Haiku 内部机制如同生物系统

Claude Sonnet 4.5 中发现情感概念表征并影响输出

三机制框架：LLM 如何处理训练知识与上下文冲突

Attractor Models：通过不动点求解让循环Transformer可扩展

技巧与观点

在脚本 shebang 行中使用 LLM：直接运行自然语言脚本

GitHub初学者指南：开始OSS贡献

Kimi API 助手用 Context Caching 提速：Golang 实践