AI 安全攻防战：红队测试失效，形式化保证崭露头角

模型发布/更新

Model Releases

5 篇

Thinking Machines 发布创新交互模型

X·KOLX：歸藏(guizang.ai) (@op7418)

前 OpenAI CTO Mira 创立的公司 Thinking Machines 发布了一款名为“交互模型”的创新 AI。该模型能原生处理音频、视频、文本等多种模态，并且实时思考、响应和行动。区别于传统的 Agent 架构将不同模型串联，它将所有模态统一在一个模型中，实现任意模态下的实时交互，用户可以随时打断、补充，AI 会持续关注用户状态并输出结果。模型由前台交互模型（每200毫秒处理输入并输出）和后台推理模型（处理复杂推理和长任务）两部分组成，最终提供实时交互和重度任务处理的能力。

DeepSeek V4 Pro上线Together AI，长上下文推理与编程性能领先

X·KOLX：Together AI (@togethercompute)

DeepSeek V4 Pro在Together AI无服务器平台上发布，具备长上下文推理能力和领先的编程性能。该模型通过KV缓存、前缀重用、混合注意力、批处理、内核优化和端点配置等技术实现高效服务。来自@zhyncs42、@realDanFu等人的深入分析揭示了其技术细节。

gpt-realtime-2语音模型发布，智能度升级

X·KOLX：Ethan Mollick (@emollick)

OpenAI推出了gpt-realtime-2语音模型，该模型原生处理语音而非转录为文本，因此模型本身的智能水平至关重要。旧版语音模型相当于GPT-4o水平，而新版被形容为“更聪明”，但OpenAI未提供任何基准测试数据。此举意味着语音交互体验将显著提升，但缺乏具体指标也引发了对透明度的讨论。

GPT-image-2.0 + Seedance 2.0 新能力

X·KOLX：歸藏(guizang.ai) (@op7418)

OpenAI 推出了GPT-image-2.0图像生成模型，同时Seedance 2.0也发布了更新。GPT-image-2.0在图像生成质量、多样性和控制能力上有了显著提升，支持更精细的文本到图像生成。Seedance 2.0则侧重于视频生成领域的改进。这两个模型的发布进一步推动了AI多模态生成技术的发展，为创意行业和内容生产提供了更强大的工具。

符号学习：替代梯度下降的新学习基底

X·KOLX：François Chollet (@fchollet)

François Chollet 在推文中澄清，符号学习（Symbolic learning）并非要取代编程智能体，而是作为梯度下降和神经网络的替代方案。他将其描述为一种低层次、完全通用且极其可扩展的新型学习基底。这一观点重新定义了符号学习的定位，表明它可能在未来AI系统中扮演更基础的角色，为模型优化提供不同于反向传播的新途径。

产品发布/更新

Product

5 篇

OpenAI发布Daybreak：前沿AI网络防御系统

X·KOLX：OpenAI (@OpenAI)

OpenAI推出Daybreak，一个专为网络防御者设计的前沿AI系统。该系统整合了OpenAI最强大的模型、Codex工具以及安全合作伙伴的技术，旨在加速网络防御并持续保障软件安全。这表明OpenAI正将AI能力从进攻性应用转向防守性场景，帮助安全团队以防御所需的速度响应威胁。

Claude Code v2.1.139 新增Agent视图与/goal命令

X·KOLX：Claude Code GitHub Releases (@ashwin-ant)

Anthropic 发布了 Claude Code v2.1.139 版本，主要新增了Agent视图（Research Preview），以列表形式展示所有Claude Code会话状态（运行中、等待用户或已完成）。新增/goal命令，允许设置完成条件，Claude会在多轮对话中持续工作直至目标达成，并实时显示经过时间、轮次和token消耗。此外，还优化了插件管理、MCP连接重试、钩子配置以及安全策略，修复了多项Bug（如凭证过期死锁、内存增长等问题）。这些更新显著提升了Claude Code在多步骤自动化任务中的实用性和稳定性。

Codex更新内置Chrome插件，可并行控制浏览器执行任务

X·KOLX：歸藏(guizang.ai) (@op7418)

AI编程助手Codex昨日更新，新增内置的谷歌浏览器插件，使其能够直接控制用户的Chrome或任何基于Chromium的浏览器执行任务。该插件支持后台跨浏览器页面并行工作，用户可以同时启动多个子Agent操作不同网页，且不影响正常浏览器使用。安装过程简单，只需在Codex插件库中找到Chrome插件并按照引导安装即可。该功能已在Mac和Windows上可用，极大提升了自动化任务处理的灵活性和效率。

Replit Parallel Agents发布：同时运行10个智能体

X·KOLX：Replit (@Replit)

Replit推出了Parallel Agents功能，允许用户同时运行多达10个智能体，每个智能体拥有独立的应用副本和计算环境。这些智能体并行工作，最终通过智能协作合并成果。该功能旨在显著提升开发效率，适合需要并行探索多种解决方案或快速迭代的场景。这是Replit在AI辅助编程领域的一次重要更新，进一步强化了其多智能体协作能力。

会议中的AI智能体，未来已来

X·KOLX：Greg Brockman (@gdb)

OpenAI CEO Sam Altman在X平台发文，称在会议中拥有一个AI智能体是一种极具未来感的体验。这暗示了OpenAI正在推动AI智能体深度融入工作流程，可能很快将推出相关产品。该功能可以让AI参与会议讨论、记录要点或执行任务，有望极大提升会议效率和协作体验。

行业动态

Industry

5 篇

OpenAI成立部署公司，提供AI部署服务

X·KOLX：Greg Brockman (@gdb)

OpenAI宣布成立OpenAI部署公司，旨在帮助企业最大化AI部署的成功率。该公司初期拥有150名前向部署工程师和部署专家，并从19个合作伙伴处获得40亿美元初始投资。此举表明OpenAI正从模型开发向企业级服务延伸，以推动AI实际落地。

ChatGPT 2026Q1用户增长：35岁以上群体增速最快

官方OpenAI Blog

OpenAI在2026年第一季度报告显示，ChatGPT用户基数显著扩大，其中35岁以上用户增长最快，性别使用比例趋于平衡。这表明AI工具正从早期的技术爱好者群体向更广泛的主流人群渗透。该趋势反映了AI应用成熟度提升，以及不同年龄段和性别用户对生成式AI的接受度提高。分析认为，这一变化将推动AI产品设计更加注重易用性和包容性。

Coursera与Udemy合并，Ng任新公司董事长

X·KOLX：Andrew Ng (@AndrewYNg)

Coursera和Udemy宣布合并为一家公司，共同服务全球学习者。Andrew Ng将担任合并后公司的董事长。此举旨在应对AI变革带来的持续学习需求，通过整合两家平台的优质内容、教师资源与学习体验，提供更个性化、实用且可扩展的教育服务。合并将帮助个人和企业提升与工作相关的技能，以应对未来就业市场的变化。

Hugging Face公开数据集突破100万

X·KOLX：Clement Delangue (@ClementDelangue)

Hugging Face宣布其平台上公开数据集数量突破100万，总数据量达到PB级别，每天有数百万AI开发者下载、分析和训练模型。值得注意的是，自智能体技术成熟以来，数据集增速显著加快，过去8个月新增50万个数据集，而达到首个50万耗时4年。业界普遍认为，更好的数据是让更多人自主构建AI而非依赖API的下一个关键瓶颈。

AWS上大模型训练推理基础组件解析

官方HuggingFace Blog

AWS发布了关于基础模型训练和推理的构建块指南，涵盖计算、存储、网络等基础设施组件。文章详细介绍了如何优化训练和推理性能，包括使用AWS Trainium和Inferentia芯片、高效的数据流水线和模型服务架构。这些最佳实践帮助用户降低大模型的部署成本和延迟。

论文研究

Research

5 篇

Swarm攻击框架：小型LLM协同实现零成本安全绕过

X·KOLX：arXiv: Anthropic (@Michael A. Riegler, Inga Strümke)

研究者开发了开源对抗测试框架swarm-attack，利用多个1.2B参数轻量级LLM通过共享内存、并行探索和进化优化协同工作。对GPT-4o的越狱攻击有效危害率达45.8%，产生49个严重漏洞，而对Claude Sonnet-4成功率为0%。在软件漏洞发现实验中也以100%召回率在4分钟内复现了9个CWE漏洞，表明此前需限制发布的能力可在零成本下复现，关键因素是系统框架本身补偿了小模型的推理限制。

RAG去重零质量损失：三模式实验分析

X·KOLX：arXiv: OpenAI (@Sietse Schelpe)

本预印本实证分析了检索增强生成管道中字节级块去重的效果，涵盖三种不同模式：干净学术检索（22.2M BeIR段落字节减少0.16%）、构造企业模式（24.03%减少）和多轮对话AI（80.34%减少）。通过跨供应商5评委校准面板评估，使用Gemini 2.5 Flash、Claude Sonnet 4.6、Llama 3.3 70B和GPT-5.1四款API，应用五类别人工噪声去除协议，证明字节级去重引入了零可测量质量回归。所有API在干净和高冗余RAG模式下均通过严格的<5% Wilson 95%上限MAT阈值。该工作表明，无需牺牲评估级模型质量即可实现大量推理计算节省。

GLiNER2-PII: 多语言个人信息提取模型发布

X·KOLX：arXiv: OpenAI (@Urchade Zaratiana, Ash Lewis, George Hurn-Maloney)

GLiNER2-PII是一个基于GLiNER2改进的0.3B参数模型，专门用于识别42种个人身份信息（PII）实体类型，支持字符级跨度检测。为解决真实PII数据匮乏和隐私风险问题，研究团队使用约束驱动生成管道构建了包含4910个标注文本的多语言合成语料库。在SPY基准测试中，该模型在跨度级别F1得分上超越了OpenAI隐私过滤器等五个对比系统。模型已在Hugging Face上开源，旨在促进PII检测的研究和实际部署。

CoT推理中模型内部可检测错误但无法修正：诊断而非因果

X·KOLX：arXiv: DeepSeek (@Aojie Yuan, Zhiyuan Julian Su, Haiyue Zhang, Yi Nian, Yue Zhao)

研究揭示了链式思维推理中的一个反直觉现象：语言模型能在内部（隐藏状态）精确检测自身推理错误（AUROC达0.95），但外在表达的信心与正确推理几乎无异（4.55/5 vs 4.87/5）。这一错误意识从推理第一步就存在（AUROC 0.79），并在Qwen、Llama、Phi等模型家族及DeepSeek-R1等推理模型上得到验证。然而，所有基于该信号的干预尝试（激活导向、最佳N选1、自我修正、激活修补）均失败，说明错误表征是计算质量的诊断指标，而非可修改的因果杠杆。这划定了解释性边界：推理中的错误表征与可编辑的事实知识本质上不同。

神经权重范数=柯尔莫哥洛夫复杂度

X·KOLX：arXiv cs.LG (@Tiberiu Musat)

该论文证明在固定精度下，循环神经网络的权重范数最小值与输出二进制字符串的柯尔莫哥洛夫复杂度成对数比例。这一结论将权重衰减的泛化能力与所罗门诺夫通用先验联系起来，揭示了正则化的理论基础。研究表明，固定精度下任何权重范数都会坍缩为非零参数计数，因此该结论适用于任意范数正则化器。证明通过将图灵机程序编码为神经权重和枚举非零参数两个方向实现，其中对数因子由置换编码实现。该结果强调固定精度假设的关键性，因为无限精度下神经网络可能编码非可计算函数。

技巧与观点

Tips & Takes

3 篇

LLM CLI工具支持Shebang脚本

X·KOLX：Simon Willison (@simonw)

开发者Simon Willison发现可以用LLM CLI工具在Shebang行中直接运行脚本，支持用自然语言编写可执行脚本，或结合YAML模板实现更复杂的任务。该方法通过将LLM命令作为解释器，允许用户用英文指令编写脚本并直接执行，简化了AI助手的命令行集成。这一技巧展示了如何将大型语言模型无缝嵌入Unix工作流，降低AI辅助编程的门槛。

消费者产品含“黄金”一词的机遇

X·KOLX：Shashikant Kore (@kshashi)

社交媒体上一条推文指出，名称中含有“黄金”一词的消费者产品当前正面临一个极佳的机遇。该评论可能暗示黄金相关的产品在特定经济或市场趋势下会更受关注。目前缺乏具体上下文以判断是否涉及AI领域，但该推文本身与AI无关。

Swarm Skills：多智能体协作的可移植自进化规范

X·KOLX：arXiv: Anthropic (@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao)

随着AI工程从单智能体转向多智能体协调工程，如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范，将多智能体工作流（包括角色、流程、执行边界和自进化语义结构）变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分，自动从成功执行轨迹中提炼新技能并修补现有技能，无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例，展示了零适配器的跨智能体可移植性，避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。

125

今日事件

一手报道

新模型

信源