X·KOLX:arXiv: Anthropic (@Neil Fendley, Zhengyu Liu, Aonan Guan, Jiacheng Zhong, Yinzhi Cao)
研究人员设计了首个检测与利用框架JAW,针对GitHub Actions和n8n等自动化平台中的智能体工作流进行劫持攻击。攻击者可通过操控GitHub Issue评论等输入,诱导LLM代理执行凭证泄露、任意命令等恶意操作。JAW通过静态路径可行性分析、动态提示来源分析和运行时能力分析,成功劫持了4714个GitHub工作流和8个n8n模板。受影响组件包括Claude Code、Gemini CLI、Qwen CLI、Cursor CLI等15个广泛使用的GitHub Actions及两个n8n官方节点。研究人员已向GitHub、Google、Anthropic等厂商负责任披露,并获得致谢、修复和漏洞赏金。
官方Anthropic: Transformer Circuits
Anthropic 发布了一项关于 Claude 3.5 Haiku 内部机制的研究,将其类比为生物学研究。他们通过构建“归因图”来追踪模型在多种任务中的推理路径,发现模型内部存在类似生物体的模块化结构和功能分工。这项研究揭示了大型语言模型如何从输入到输出逐步构建理解,例如在数学推理中,模型会先识别问题类型,再调用特定计算模块。该工作为理解 AI 黑箱提供了新视角,有助于提升模型的可解释性和安全性。
官方Anthropic: Transformer Circuits
Sofroniew 等人在 2026 年的研究中发现,Claude Sonnet 4.5 内部存在情感概念的表征,并且这些表征对模型的输出有因果影响。研究通过探针和干预实验,定位了与“快乐”、“悲伤”、“愤怒”等情感相关的神经元活动模式。当人为激活或抑制这些情感表征时,模型的回答风格和内容会相应改变。这一发现揭示了大型语言模型如何模拟情感,并为理解其内部机制提供了新视角。
X·KOLX:arXiv: DeepSeek (@Pruthvinath Jeripity Venkata)
该研究提出一个三机制框架,解释大语言模型在处理训练知识与上下文文档冲突时的矛盾现象。先前研究结果不一:有的发现模型顽固保留训练答案,有的则发现模型几乎完全遵循上下文。研究者认为这是因为未区分三种不同的处理情境:机制1(单源更新,主导因素为证据连贯性)、机制2(竞争整合,主导因素为参数确定性)、机制3(任务适配选择,主导因素为任务知识需求)。通过 9970 次 API 调用,在 Claude Sonnet 4.6、GPT-5.5、Gemini 2.5 Flash、Llama 4 Maverick 和 DeepSeek V3 上验证了该框架,确认了机制2的确定性梯度,并发现任务框架能将上下文遵循率从近100%翻转至6-71%。
X·KOLX:arXiv cs.AI (@Jacob Fein-Ashley, Paria Rashidinejad)
论文提出Attractor Models,用隐式微分求解不动点替代传统循环Transformer的显式迭代,训练内存不随有效深度增长,迭代次数由收敛自适应决定。在语言模型预训练中,770M参数模型超越1.3B Transformer(训练数据多一倍),困惑度降低46.6%,下游准确率提升19.7%。在推理任务中,27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率,而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象:训练后可在推理时移除求解器而性能几乎不降。