Google Developers Blog(博客/媒体)70Google 宣布 Gemini Embedding 2 正式可用,该模型能将文本、图像、视频、音频和文档映射到统一的语义空间,支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能,支持超过 100 种语言,并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。AI模型Gemini Embedding 2多模态智能体向量嵌入RAG推荐理由:对需要跨模态语义搜索和智能体构建的开发者而言,Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量,值得关注其在实际部署中的表现。
Clement Delangue@ClementDelangue70Hugging Face宣布其平台上公开数据集数量突破100万,总数据量达到PB级别,每天有数百万AI开发者下载、分析和训练模型。值得注意的是,自智能体技术成熟以来,数据集增速显著加快,过去8个月新增50万个数据集,而达到首个50万耗时4年。业界普遍认为,更好的数据是让更多人自主构建AI而非依赖API的下一个关键瓶颈。行业数据集开源/仓库Hugging Face智能体推荐理由:这一里程碑表明高质量数据的获取和分享正在变得更加高效,对AI模型训练和开源生态的持续发展具有积极意义。
AK@_akhaliq55TMAS(多智能体协同扩展测试时计算)是一种新方法,通过让多个AI智能体协同工作来提升模型推理能力,类似于OpenAI o1的“思考链”扩展。该技术无需修改模型参数,仅通过集成多个智能体在测试时分配计算资源,在数学、编程等复杂任务上取得显著效果。这意味着推理模型可能迎来无需大规模训练的升级路径,为资源有限的研究团队提供新思路。论文推理模型智能体多模态协同计算测试时扩展推荐理由:TMAS探索了多智能体协同扩展测试时计算的范式,无需额外训练即可提升模型性能,对推理模型和智能体系统的发展具有参考价值。
Together AI@togethercompute50Yutori AI的浏览器代理产品(Scouts、Delegate、Navigator)基于Together AI推理平台运行,实现了相比前沿模型每步2倍的速度提升、4-5倍的推理成本降低,并保持99.9%的可用性与弹性扩展。这展示了在AI代理场景中,推理基础设施对产品性能的关键作用。AI产品智能体推理模型Together AIYutoriAI Native Cloud推荐理由:该案例说明了在浏览器AI代理这类高频率模型调用的场景下,专用推理基础设施可显著提升性能并降低成本,对AI代理产品落地具有参考价值。
arXiv cs.LG@Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister55RubricEM 是一种新型强化学习框架,用于训练深度研究智能体(如规划、搜索、证据评估和长报告合成的系统)。该框架引入了基于评分标准的策略分解和自省元策略进化,通过将研究轨迹分段并与自生成评分标准关联,利用阶段评分提供密集语义反馈。RubricEM-8B 模型在四个长研究基准上表现出色,性能接近专有深度研究系统。论文强化学习智能体研究智能体元学习推荐理由:该工作为奖励不可验证的长期任务提供了结构化强化学习新思路,通过评分标准统一策略执行、评判反馈和智能体记忆,对复杂研究智能体训练具有实践指导意义。
arXiv cs.LG@Junhao Shen, Teng Zhang, Xiaoyan Zhao, Hong Cheng65本文提出SLIM框架,针对大语言模型智能体在复杂任务中依赖外部技能的问题,将主动外部技能集视作动态优化变量,与策略学习联合更新。SLIM通过留一技能验证评估边际贡献,实施保留高价值技能、退休低贡献技能及扩展技能库三种生命周期操作。在ALFWorld和SearchQA基准测试中,SLIM平均比最佳基线高7.1个百分点,表明策略学习与外部技能保留并非互斥。该工作为基于技能的智能体强化学习提供了更通用的范式。论文智能体强化学习技能管理动态优化推荐理由:该方法突破了传统假设中技能集单调积累的限制,为智能体在资源受限下动态调整技能提供了理论框架,对提升AI智能体在复杂任务中的效率有重要参考价值。
arXiv: Anthropic@Xinyu Zhang, Zhicheng Dou, Deyang Li, Jianjun Tao, Shuo Cheng, Ruifeng Shi, Fangchao Liu, Enrui Hu, Yangkai Ding, Hongbo Wang, Qi Ye, Xuefeng Jin, Zhangchun Zhao65随着AI工程从单智能体转向多智能体协调工程,如何将多智能体协作协议编码为可移植资产成为关键瓶颈。Swarm Skills 提出了一种扩展自 Anthropic Skills 标准的可移植规范,将多智能体工作流(包括角色、流程、执行边界和自进化语义结构)变为一等公民。配套的自进化算法基于有效性、利用率和新鲜度等多维评分,自动从成功执行轨迹中提炼新技能并修补现有技能,无需人工干预。通过架构兼容性分析和 JiuwenSwarm 参考实现案例,展示了零适配器的跨智能体可移植性,避免框架锁定。该工作为多智能体系统提供了可分享、可自我改进的协作基础。论文智能体多智能体系统协调工程自进化开源/仓库推荐理由:解决了多智能体协作无法跨系统共享和自主改进的核心问题,为协调工程提供标准化的可移植规范和自进化机制,对构建灵活、自适应的多智能体系统具有实际指导意义。
arXiv cs.AI@Mingxi Zou, Zhihan Guo, Langzhang Liang, Zhuo Wang, Qifan Wang, Qingsong Wen, Irwin King, Lizhen Qu, Zenglin Xu65该论文提出了一个基于率失真理论的决策中心记忆框架,将智能体记忆优化定义为决策质量损失最小化问题,而非传统描述性标准。作者推导了遗忘边界和记忆-失真前沿,并开发了在线记忆学习器DeMem,仅在数据证明共享状态会导致决策冲突时更新分区。在合成诊断和长程对话基准测试中,DeMem在相同运行预算下带来持续性能提升,验证了“记忆应保存决策所需的区分,而非描述”的核心理念。论文智能体记忆压缩率失真理论长程对话推荐理由:这项工作为智能体记忆管理提供了一个理论基础,将记忆效率与最终决策质量直接挂钩,对于构建长周期自主智能体具有重要指导意义。
arXiv cs.AI@Roxana Geambasu, Mariana Raykova, Pierre Tholoniat, Trishita Tiwari, Lillian Tsai, Wen Zhang55该论文指出当前AI智能体普遍采用的“即时合成”范式(on-the-fly loop)缺乏严谨的软件工程流程,如迭代设计、严格测试、对抗性评估和分阶段部署,导致实际输出如同“临时原型”,在高风险场景下不可靠。作者提出将软件工程引入智能体循环,打造经过硬化、有确定性约束的生产级agent workflow,并通过复用分摊成本。为此,他们构想了一个“AI Workflow Store”,即存放硬化且可复用的工作流库,智能体可调用这些工作流以显著提升可靠性。论文还探讨了灵活性-鲁棒性张力下的研究挑战。论文智能体AI安全软件工程工作流存储推荐理由:该研究直击当前AI智能体可靠性不足的痛点,提出以工程化工作流复用替代即时合成,为构建生产级智能体系统提供了重要思路,对Agent落地高风险场景具有参考价值。
arXiv cs.AI@Simon Yu, Derek Chong, Ananjan Nandi, Dilara Soylu, Jiuding Sun, Christopher D Manning, Weiyan Shi65Shepherd提出了一种函数式编程模型,将元Agent对目标Agent的操作形式化为函数,并通过Lean实现核心操作。该系统记录每个Agent-环境交互作为类型化事件,形成类似Git的执行轨迹,支持分叉和重放任意历史状态。实验表明,Shepherd的分叉速度比Docker快5倍,重放时提示缓存复用率超过95%。在运行时干预中,实时监督将配对编码通过率从28.8%提升至54.7%;在反事实元优化中,分支探索在四个基准上提升最多11个百分点,同时减少高达58%的壁钟时间;在树强化学习中,选择性地分叉展开将TerminalBench-2性能从34.2%提升至39.4%。Shepherd为元Agent编程提供了高效基础设施,并已开源。论文智能体元Agent形式化验证运行时追踪开源/仓库推荐理由:该工作为元Agent的运行时追踪和干预提供了一种形式化、高性能的解决方案,尤其适合需要细粒度回溯和优化的复杂Agent系统开发。其Lean形式化和Git式执行轨迹的设计对AI安全与调试有实际参考价值。
腾讯混元 Tencent Hunyuan@tencentcloud40腾讯云与新加坡管理大学创新与创业研究所合作,成功举办了腾讯云国际开发者AI编程挑战赛新加坡站。活动展示了CodeBuddy工具如何帮助开发者和学生将AI创意转化为实际项目,特别强调了AI在社会公益方面的应用。CodeBuddy使任何人都能利用AI编码实现有意义的功能,如帮助老年用户保持独立或原型社会创新项目。AI产品编程助手CodeBuddy腾讯云AI教育智能体推荐理由:此次合作表明腾讯云正积极推广其AI编码工具CodeBuddy,并扩展东南亚市场影响,对AI开发者和教育机构具有参考价值。
Replit@Replit65Replit推出了Parallel Agents功能,允许用户同时运行多达10个智能体,每个智能体拥有独立的应用副本和计算环境。这些智能体并行工作,最终通过智能协作合并成果。该功能旨在显著提升开发效率,适合需要并行探索多种解决方案或快速迭代的场景。这是Replit在AI辅助编程领域的一次重要更新,进一步强化了其多智能体协作能力。AI产品编程助手智能体Replit并行计算开发效率推荐理由:对于使用Replit平台的开发者,Parallel Agents能够大幅缩短实验和调试周期,适合需要并行验证多个方案或独立模块开发的场景。该功能降低了多智能体协作的门槛,值得关注。
岚叔@LufzzLiz45Claude Code 更新至2.1.139版本,新增agents全局视图,可统一查看所有Claude Code会话状态,包括运行中、等待确认和已完成的任务。同时引入/goal命令,允许用户设定完成条件,Claude将跨多轮持续工作直至目标达成。此外,新增/scroll-speed命令用于调整鼠标滚轮速度并实时预览。这些功能显著提升了Claude Code在复杂任务管理中的实用性和自主性。AI产品智能体编程助手Claude CodeAI工具更新goals推荐理由:该更新为Claude Code引入了类似Codex的/goal命令和全局agent视图,提升了多会话管理和长任务执行的可见性与可控性,对开发者日常使用Workflow和自动化场景有实际价值。
Greg Brockman@gdb70OpenAI CEO Sam Altman在X平台发文,称在会议中拥有一个AI智能体是一种极具未来感的体验。这暗示了OpenAI正在推动AI智能体深度融入工作流程,可能很快将推出相关产品。该功能可以让AI参与会议讨论、记录要点或执行任务,有望极大提升会议效率和协作体验。AI产品智能体会议助手OpenAI办公效率推荐理由:Sam Altman的简短表态预示着AI智能体在办公场景中的应用即将进入实用阶段,值得关注其产品化进展。
岚叔@lufzzliz60一款名为Bloome的产品正在改变AI Agent的使用方式,用户无需安装skill或配置agent,只需与预配置的agent聊天即可获得所需功能。该产品将Agent变为即时通讯中的成员,可通过拉入群聊或单聊直接工作,并允许用户分享或销售自己配置的agent。作者分享了打造AI Agent社群的心得,包括让Agent成为基础设施、结构化沉淀信息、以及精准匹配用户需求。体验地址已在评论区提供。AI产品AI AgentIM集成产品化智能体Chatbot推荐理由:Bloome降低了AI Agent的使用门槛,通过IM集成和配置共享机制,可能推动Agent的普及和商业化。对开发者和内容创作者而言,这是一个将AI能力产品化的新渠道。
阶跃星辰 Stepfun@Stepfun_AI40Google I/O大会周期间,SEAMATE与Linkloud将于5月16日在Sunnyvale举办Front Row meetup,预计吸引约500名创始人和开发者参与。活动聚焦智能体、多模态及AI原生基础设施等前沿方向。Stepfun AI团队将参与'智能体实际使用的应用'小组讨论,与Principle和Google同台。本次活动为纯开发者闭门交流,旨在促进AI Builder社区的深度碰撞。行业Google I/O智能体多模态AI开发者社区AI原生基础设施推荐理由:反映了AI行业从模型训练转向应用构建的趋势,智能体与多模态成为开发者核心关注点。对于关注AI原生产品和工具链的从业者而言,该活动是观察前沿方向与社区动态的重要窗口。
岚叔@lufzzliz30用户分享了自己更喜欢与Agent聊天的体验,提到BlOOME平台支持在群聊中使用群友开发的Widgets(类似小程序)。视频演示了在群聊中通过Agent推荐音乐,点击即可播放,增强了社交互动和便捷性。这表明Agent在群聊场景中的应用正在提升用户体验,通过集成Widgets功能,Agent能提供更多样化的服务。AI产品智能体社交/群聊小工具/插件推荐理由:展示了Agent在群聊场景中的实际应用,通过Widgets扩展功能提升了交互趣味性,对社交类AI产品设计有参考价值。
腾讯混元 Tencent Hunyuan@TencentCloud45腾讯云与香港及大湾区AI社区联合举办首次线下技术交流活动,深入探讨了端到端AI解决方案的技术实践。活动展示了从自研混元大模型到AI开发平台的全栈能力,以及Agent开发平台、向量数据库等开发者工具。参与者认为内容具有极强技术深度,真实展示了腾讯如何大规模构建智能系统。这标志着腾讯云在AI基础设施领域的持续投入,尤其聚焦于降低企业级AI应用开发门槛。行业智能体腾讯云混元大模型AI开发平台社区活动推荐理由:对于关注Agent开发和企业级AI落地的从业者,腾讯云的全栈方案和ADP平台值得持续跟踪,这反映了中国云厂商在AI应用层的最新实践。
百度 AI Baidu@Baidu_Inc40百度宣布将于下周三举办Create 2026大会,CEO李彦宏将深入解读“Agents at Scale”(智能体规模化)的实际内涵。演讲将聚焦智能体本身、与智能体协作的人员以及随之演进的组织结构,旨在推动智能体从概念走向大规模实际应用。该活动标志着智能体技术进入商业化与产业化加速阶段。行业智能体百度AI应用行业大会推荐理由:百度作为中国AI领域的重要参与者,其CEO在年度技术大会上的主题演讲将揭示智能体规模化落地的战略方向与技术路径,对关注AI应用落地的从业者具有参考价值。
百度 AI Baidu@Baidu_Inc40百度宣布其年度开发者大会 Create 2026 将于3天后举行,届时将发布智能体相关产品和新功能。大会将提供直播,预计展示百度在AI智能体领域的最新进展和商业化成果。行业智能体Baidu开发者大会推荐理由:Baidu Create 大会是百度AI生态的重要展示平台,本次聚焦智能体,可能发布关键产品更新,对国内AI应用开发者有参考价值。
Perplexity@perplexity_ai40Perplexity AI 在 X 上宣布公开其内部构建智能体技能的指南。该手册旨在帮助开发者掌握构建智能体技能所需的新思维方式。这一举措旨在推动 AI 智能体生态发展,降低开发者门槛。手册内容预计涵盖设计原则、实现方法和最佳实践。AI产品智能体MCP/工具Perplexity AI推荐理由:对开发者而言,这是一份来自头部 AI 公司的实战经验分享,有助于理解智能体开发的新范式,具有实际参考价值。
Simon Willison@simonw50Shopify推出了名为River的智能体系统,该系统只能通过Slack公开使用,以便其他员工能够从中学习。这种做法类似于Midjourney最初仅限Discord的发布方式,帮助用户通过观察他人来掌握复杂的图像提示技巧。River的设计强调透明性和协作,使得内部团队能够共享最佳实践并加速AI工具的普及。这对于企业部署AI智能体时的培训和文化建设提供了新思路。AI产品智能体协作学习Slack透明性推荐理由:该做法展示了企业AI智能体部署中透明性和协作学习的价值,类似于Midjourney的成功案例,值得关注其对内部AI工具采纳和技能传播的实际效果。
Google AI@GoogleAI65在Google I/O大会前11天,Google AI本周密集发布6项更新:Google Health应用集成Gemini健康教练,结合可穿戴设备、健身应用和医疗记录提供主动健康指导;Gemma 4模型引入多令牌预测(MTP)机制,工作流速度提升达3倍;NotebookLM新增自动来源组织和可定制思维导图;Gemini API文件搜索工具支持多模态、自定义元数据和页面引用;Gemini API新增Webhook推送通知功能替代轮询;Nano Banana、Veo和Google Photos Remix等AI功能上线Google TV。行业Gemini谷歌I/O多模态智能体编程效率推荐理由:此次更新覆盖健康、编程、搜索、文档协作和智能电视等多个场景,显示Google正在将AI能力系统化整合至其生态产品矩阵,对开发者生态和终端用户体验均产生实质影响。
OpenAI@OpenAI40OpenAI 发布文章指出,思维链监控是防御AI智能体对齐失败的关键层。为确保可监控性,他们避免在强化学习中惩罚错误推理。研究团队发现,少量意外的思维链评分影响了已发布模型,并分享了相关分析。这一发现强调了保持AI推理过程透明的重要性,对智能体安全研究具有指导意义。论文思维链AI安全/对齐智能体OpenAI强化学习推荐理由:该分析揭示了思维链监控在实际部署中的挑战,为AI安全领域提供了具体案例和避坑建议,对研究者和工程师有直接参考价值。
AK@_akhaliq65Skill1 提出了一种通过强化学习统一演化技能增强智能体的方法,旨在提升智能体在复杂任务中的泛化能力和学习效率。该方法将技能学习与强化学习框架结合,使智能体能够自主发现、优化和复用技能模块,从而适应多种任务场景。实验表明,Skill1 在多个基准测试中优于传统方法,尤其在长期规划和策略迁移方面表现突出。这项工作为构建更通用、更自主的智能体系统提供了新思路。论文智能体强化学习技能学习泛化Skill1推荐理由:这项研究为技能增强型智能体的设计与训练提供了统一的强化学习框架,路径清晰且实证有效,对推动智能体从单任务到多任务泛化具有实际参考价值。
Replit@Replit55Replit 在其10周年之际举办了Buildathon编程马拉松,并公布了获奖项目。本次活动旨在激励开发者利用Replit平台快速构建创新应用,重点展示了AI辅助编程的潜力。获奖项目涵盖教育、生产力、娱乐等多个领域,体现了低代码和AI驱动开发的趋势。Replit通过此类活动进一步强化其作为AI编程协作平台的地位,吸引更多开发者和创作者加入其生态系统。AI产品编程助手低代码/无代码智能体Replit开源/仓库推荐理由:对关注低代码平台和AI编程工具的开发者而言,获奖项目展示了当前Replit生态中的创新方向,如智能体应用和实时协作工具,可参考学习其中技术思路。
AK@_akhaliq30SkillOS是一种用于自我进化智能体学习技能编排的新方法。文章介绍了相关的论文,该论文可能提出了一种框架,让AI智能体能够自动选择和编排技能,从而实现持续学习和适应。这对于构建更灵活、自主的AI系统具有重要意义。关键细节包括论文链接和基本概念,但目前缺乏具体实验结果。论文智能体技能编排自进化论文推荐理由:该方法探索了智能体技能自动编排的机制,可能提升AI系统在复杂环境中的自主适应能力,值得关注其对自动化任务编排领域的影响。
François Chollet@fchollet50Keras创始人François Chollet在X平台发文指出,智能体编程本质上是一种机器学习形式。他认为生成的代码应被视为黑盒产物,其行为和泛化能力需要通过经验评估来管理,就像对待任何机器学习模型一样。这一观点挑战了将代码自动生成视为传统编程延伸的普遍看法,强调开发者需要关注评估而不是审查代码本身。论文智能体代码生成MCP/工具机器学习评估推荐理由:本文提醒开发者,Agentic coding(智能体编程)的输出应作为黑盒模型进行经验评估,这对当前AI辅助编码的工程实践具有指导意义。
arXiv: OpenAI(学术论文)45该研究通过分析五款AI编码工具(OpenAI, Copilot, Devin, Cursor, Claude Code)在29,585个Pull Request生命周期中的行为,提出了“发起者×批准者”分类法,将工具分为协作型(Cursor, Devin, Copilot)和辅助型(OpenAI, Claude)。协作型工具中,AI代理发起并推进PR工作,但合并权限几乎完全由人类保留;辅助型工具则更多由人类主导工作流程。研究揭示了代理操作与治理权限的脱节——自动化可执行合并,但日志仅记录执行者而非决策者。该工作为AI编码自动化中的监督与治理设计提供了分类工具和可复现分析框架。论文编码助手AI安全智能体协作/辅助Pull Request推荐理由:该研究系统量化了当前AI编码工具在PR工作流中的角色分工,揭示了代理发起与人类审批的解耦现象,对理解自动化治理边界和改进开发者工具设计具有实际参考价值。
arXiv cs.AI(学术论文)65这项研究探测了Gemma 3、Qwen 3、Qwen 2.5和Llama 3.1等12个指令微调模型(参数量从270M到27B),发现模型内部对所选工具的表示是线性的,可以通过激活干预来操控。通过添加两个工具平均激活的差值向量,可以在单轮名称提示上以77-100%的准确率(4B以上模型达93-100%)切换工具选择,并且随后的JSON参数会自动适应新工具的架构。此外,该方法还能提前标记潜在错误:在Gemma 3 12B和27B上,top-1与top-2工具差距最小的查询产生错误调用的概率是差距最大查询的14-21倍。因果效应集中在输出层对应目标工具首标记的行方向上,激活修补将影响定位到中后层少数注意力头。即使在基础模型中,内部状态也能在模型实际生成工具名称之前编码正确的工具选择,这表明预训练阶段已经形成了工具表征,指令微调只是将其连接到输出层。论文工具调用线性表征模型可解释性智能体推荐理由:该研究揭示了语言模型中工具选择的内在线性表征机制,为提升工具调用的可解释性和可控性提供了理论基础,对构建更可靠的智能体系统具有重要启发意义。
arXiv cs.AI(学术论文)70该论文针对命令行界面(CLI)智能体在大型代码库中面临的两个瓶颈:从部分观察中识别任务相关证据,以及稀疏的终端奖励分配。研究者提出了σ-Reveal,一种推理时选择token预算上下文的机制;以及Action Advantage Assignment(A³),一种利用抽象语法树(AST)的动作子链残差和轨迹边际的强化学习方法。此外,他们还构建了ShellOps数据集套件,用于评估仓库环境中的CLI任务。这项研究为CLI智能体学习提供了更结构化的奖励信号,有望提升智能体在复杂代码交互中的表现。论文智能体强化学习代码库交互CLIAST推荐理由:该工作提出了CLI智能体学习的关键创新:σ-Reveal和A³分别解决了选择性观察和信用分配问题,对提升Agent在复杂代码环境中的自主操作能力有显著意义。