shao__meng@shao__meng精选73xAI 推出了 Grok Build CLI (beta),这是一个面向编码、应用构建和工作流自动化的 Agentic CLI 工具。目前仅向 SuperGrok Heavy 订阅用户开放,xAI 希望通过用户反馈迭代模型和产品。该工具具备快速终端渲染、计划视图、子智能体并行执行、技能装载、插件市场以及主动澄清等能力。底层模型为 grok-code-fast-1,在 SWE-Bench Verified 上达到 70.8%,上下文窗口为 256K。AI产品CLI工具智能体编码助手工作流自动化Grok推荐理由:Grok Build CLI 的 Plan 视图和子智能体并行能力解决了复杂任务的可视化与执行效率问题,做自动化工作流或编码的开发者可以直接体验,尤其适合需要多智能体协作的团队。
shao__meng@shao__meng67Anthropic 创始人 DarioAmodei 发布报告,游说美国国会和特朗普政府收紧对华 AI 管制。报告认为算力是 AI 竞争的关键,美国领先优势依赖政策维持,并预测 2028 年若放松管制将面临威胁。报告分析中国 AI 实验室在人才、数据、算法上不弱,唯一短板是算力,并通过走私、远程使用芯片和蒸馏攻击绕过限制。Anthropic 提出三项政策:堵住芯片走私和远程使用漏洞、立法禁止蒸馏攻击、推动美国 AI 在全球部署以挤压中国空间。行业AI 管制中美竞争算力Anthropic政策游说推荐理由:这份报告直接指向 AI 算力管制的关键漏洞,做 AI 政策研究或关注中美科技竞争的读者值得细读,能提前了解未来 12-24 个月的管制动向。
shao__meng@shao__meng67OpenAI 将 Codex 集成到 ChatGPT 移动 App,用户可通过手机远程操控运行 Codex 的本地机器。新版 App 提供完整的移动工作面,支持实时同步线程、审批、插件和项目上下文,并回传截图、终端输出等结果。技术架构采用安全中继层,实现云端中继与本地执行混合模型,确保凭证和文件留在本地。演示场景包括排队时批准 bug 调查、通勤中决策方案分叉、会议间隙汇总客户问题等。Windows 端尚未推出,但移动端已大幅提升 AI 编程的灵活性和实时性。AI产品CodexChatGPT移动办公AI 编程助手远程开发推荐理由:移动端远程操控 Codex 解决了编程工作受限于固定工位的痛点,做 AI 编程或远程开发的团队可以直接用手机审批、决策和推进任务,建议试试。
arXiv: OpenAI@Tianwei Chen, Takuya Furusawa, Yuki Hirakawa, Ryotaro Shimizu, Mo Fan, Takashi Wada精选58本文提出 MultiEmo-Bench,一个多标签视觉情感分析基准数据集,用于全面评估多模态大模型(MLLMs)预测图像引发情感的能力。现有数据集采用单候选情感标注方案,忽略了单张图像可能引发多种不同强度情感的事实,导致低估 MLLMs 能力。新数据集为每张图像雇佣 20 名标注者,收集所有被激发的情感,最终包含 10,344 张图像和 236,998 条有效投票,覆盖八种情感。评估了 Qwen3-VL、GPT、Gemini 和 Claude 等模型,结果表明当前 MLLMs 虽有进步,但仍有很大提升空间。实验还发现,LLM-as-a-judge 方法在视觉情感分析这一主观任务上效果不稳定。论文多模态大模型视觉情感分析基准数据集多标签标注Qwen3-VL推荐理由:做多模态情感分析或评估 MLLMs 情感能力的团队,终于有了一个更可靠的多标签基准——MultiEmo-Bench 解决了现有数据集低估模型的问题,值得直接用于模型评测。
arXiv: OpenAI@Matteo Cobelli, Stefano Sanvito精选58Autoresearch 是一种自动化科学任务的范式,AI 智能体自主提出、实现、评估和优化解决方案。本文提出 Automat 框架,使用基于 GPT-5.5 的 Codex 编码智能体,为化学化合物生成仅基于化学式的成分描述符,并通过随机森林工作流评估。在预测无机材料带隙和铁磁化合物居里温度两个任务中,Automat 超越了分数成分、Magpie 等基线,生成的描述符具有化学可解释性。该研究证明 autoresearch 智能体无需手动特征工程即可生成任务专用描述符,但也暴露了描述符冗余、贪婪特征扩展敏感性和需要复杂度控制等局限性。论文Autoresearch材料科学描述符设计GPT-5.5随机森林推荐理由:材料科学家和 AI for Science 研究者终于有了一个能自动设计描述符的框架——Automat 用 GPT 智能体替代了繁琐的手动特征工程,在带隙和居里温度预测上直接超越经典 Magpie 基线,做材料信息学的团队值得一试。
arXiv: DeepSeek@Libo Sun, Po-wei Harn, Peixiong He, Xiao Qin精选58该研究系统评估了七种KV缓存压缩机制在数学推理任务上的表现,发现所有现有方法在小预算下均被拒绝。作者提出一种名为α的简单修改,通过引入多样性惩罚项替代传统argmax-top-k选择,在Qwen-7B和Llama-8B模型上,在64和128预算下,α在两项测试中显著优于基线。该发现表明,最小化的评分修改比复杂的结构重设计更有效,且严格的实验协议使这一不对称性得以显现。论文KV缓存压缩推理模型数学推理QwenLlama推荐理由:KV缓存压缩是长上下文推理的关键瓶颈,做LLM推理优化的开发者可以直接参考α方法——它用一行修改就打败了七种复杂方案,值得在自家模型上试试。
arXiv: DeepSeek@Pengyun Zhu, Yuqi Ren, Zhen Wang, Lei Yang, Deyi Xiong精选58当前大语言模型(LLM)通常使用粗粒度的国家标签进行多元价值对齐,但这会忽略国家内部的价值异质性,导致对齐松散。DVMap 提出从国家标签转向多维人口统计约束,通过世界价值观调查(WVS)构建包含 56,152 样本的高质量对齐语料库,并引入结构化思维链(CoT)机制引导模型推理人口与价值的关系。实验表明,Qwen3-8B-DVMap 在跨人口统计测试中达到 48.6% 准确率,超越 DeepSeek-v3.2(45.1%),并展现出强泛化性和鲁棒性。该框架解决了宏观标签无法捕捉群体内价值差异的问题,为 LLM 的多元对齐提供了更精细的解决方案。论文大语言模型价值对齐人口统计思维链泛化性推荐理由:做 LLM 价值对齐的研究者终于有了从人口统计维度精细建模的方法——DVMap 用结构化 CoT 和 GRPO 实现了跨群体泛化,比国家标签更准,建议做 AI 伦理和可控生成的团队点开看看。
arXiv: DeepSeek@Bin Lei, Caiwen Ding, Jiachen Yang, Ang Li, Xin Eric Wang精选58研究发现,思维链推理长度增加时,模型对早期关键洞察的注意力会逐渐减弱,导致准确率在达到峰值后下降。为此,研究者提出InsightReplay方法,让模型在推理过程中定期提取关键洞察并回放到当前生成位置附近,保持其可访问性。在8B和30B规模的Qwen3.5、DeepSeek-R1-Distill-Qwen、Gemma-4模型上,覆盖AIME、HMMT、GPQA Diamond、LiveCodeBench v5等基准测试,3轮InsightReplay在所有24个设置中均带来准确率提升,平均提升1.65个百分点,最高单设置提升达9.2个百分点。结果表明,测试时扩展的有效性不仅取决于推理量,还取决于关键中间洞察在长推理轨迹中的可访问性。论文推理模型思维链注意力机制InsightReplay长上下文推荐理由:长链推理的注意力衰减问题终于有了针对性解法,做推理模型优化或长上下文应用的团队值得关注——InsightReplay简单有效,可以直接在现有CoT框架上尝试。
歸藏(guizang.ai)@op741858Codex 现在支持通过手机上的 ChatGPT 远程控制桌面端设备。用户绑定后,可以在手机端查看所有对话、发送指令、审批权限和监控进度。设置过程简单,需在桌面端 Codex 客户端开启移动版设置,并通过手机 ChatGPT 扫码或授权完成绑定。目前仅支持 Mac 版 Codex,Windows 版本仍在开发中。这一功能让开发者可以随时随地管理 Codex 任务,提升远程协作效率。AI产品CodexChatGPT远程控制Mac开发者工具推荐理由:远程控制 Codex 解决了开发者无法随时在桌面端操作的问题,做自动化或 AI 编程的团队可以直接在手机上管理任务,建议试试这个新功能。
arXiv: Anthropic@Jean-Philippe Monteuuis, Cong Chen, Jonathan Petit精选58该论文揭示了LLM越狱攻击评估中的关键问题:攻击成功率(ASR)作为主要指标并不稳定,导致已发表的ASR数值被系统性夸大且不可比较。研究发现,即使一个越狱提示在单次测试中达到80%的ASR,在连续5次尝试中成功率可能降至50%。作者分析了攻击生成和评估过程中的随机性影响,提出了新指标CAS-eval和攻击生成框架CAS-gen。CAS-eval能更稳定地评估攻击效果,而CAS-gen帮助恢复因随机性导致的30个百分点的ASR损失。这项工作对越狱攻击的可靠评估和防御研究具有重要参考价值。论文LLM安全越狱攻击评估指标随机性CAS-eval/CAS-gen推荐理由:做LLM安全评估的团队会发现现有ASR指标不可靠——论文用数据证明80%的ASR在连续测试中可能只剩50%,CAS-eval和CAS-gen直接解决了这个评估和生成的不一致问题,做红队测试的建议点开。
berryxia@berryxia37Violin 是一个视频翻译项目,现在支持直接安装为 Claude Code skill,简化了使用流程。用户只需运行 `violin --install-skill` 即可安装,之后可通过 `violin input.mp4 output_zh.mp4 --language Chinese` 命令直接使用。该项目需要从官网注册获取 Key,支持 Together AI、OpenAI、ElevenLabs 等平台。默认使用 Together AI,需设置环境变量 `TOGETHER_API_KEY`。AI产品视频翻译Claude CodeskillTogether AI开源/仓库推荐理由:视频翻译工作流被大幅简化,做多语言内容处理的团队可以直接在 Claude Code 里调用,省去手动配置的麻烦,建议试试。
arXiv cs.AI@Luca Marzari, Enrico Marchesini精选58针对循环神经网络(RNN)在部分可观测强化学习中的策略验证难题,研究者提出RNN-ProVe框架。该框架通过策略驱动采样近似隐藏状态空间,并利用统计误差界给出行为违规的高置信度概率估计。实验表明,RNN-ProVe在单智能体和多智能体任务中,比现有工具提供更定量、更可行的概率保证,且能扩展到循环和多智能体场景。论文强化学习循环神经网络概率验证多智能体RNN-ProVe推荐理由:做强化学习验证或RNN策略安全的团队,终于有了一个能给出概率性保证的实用工具,比传统过近似方法更精准,值得关注。
arXiv cs.AI@Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi精选73该研究提出了一种结合深度学习与大型语言模型(LLM)的系统,用于个性化图像审美评估。系统通过LLM进行半结构化访谈主动收集用户的审美偏好,并提取图像的高层语义特征与低层特征进行预测。实验表明,该系统在预测个体审美评价上优于传统模型、人类预测者,甚至目标个体自身的重新评估。尤其在高评分图像上表现突出,且预测误差小于个体自身的时间波动。研究暗示AI可能比他人或未来的自己更能捕捉特定时刻的个体审美偏好,引发AI能否成为比人类更深刻审美解释者的新问题。论文LLM图像审美评估个性化推荐深度学习语义特征推荐理由:这项研究解决了AI审美评估中主观性强的痛点,做个性化推荐、图像编辑或用户体验优化的团队值得关注——它用LLM访谈替代了传统问卷,效果甚至超过本人复评,建议点开看看实验设计。
arXiv cs.AI@Hongyu Lin, Antonio Briola, Yuanrong Wang, Tomaso Aste精选58该研究提出一种结合信息过滤网络(IFN)与同调神经网络(HNN)的新方法,利用组合稀疏性作为归纳偏置来设计高效神经网络。HNN通过提取稀疏依赖结构并映射为固定连接的稀疏神经图,在合成任务中能恢复底层组合结构,且在高维场景下保持稳定。在多个真实数据集上,HNN以远少于传统网络的参数数量达到或超越密集基线的性能,同时表现出更低的方差和超参数敏感性。这项工作为理解深度神经网络如何克服维度灾难提供了理论支撑和实用架构。论文组合稀疏性归纳偏置同调神经网络信息过滤网络高维学习推荐理由:这篇论文为高维学习中的稀疏性假设提供了可落地的架构设计思路,做深度学习理论和高效模型设计的开发者值得关注——HNN的稀疏性和低超参数敏感性意味着更少的调参成本和更好的泛化能力。
arXiv cs.AI@Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen精选58传统语音翻译系统依赖语音识别和文本翻译两个独立模块,容易产生级联错误。本文提出一种基于LLM的流式语音翻译架构,让模型不仅能输出翻译结果,还能自主判断是否已听到足够音频来输出。该系统通过输入语音与输出文本的自动对齐进行训练,在多个语言对上的翻译质量接近非流式基线,但延迟仅为1-2秒。这项研究解决了现有SpeechLLM系统无法实时流式输出的痛点,使语音翻译更适用于实时应用场景。论文语音翻译流式处理SpeechLLM低延迟实时系统推荐理由:做实时语音翻译的团队终于有了低延迟方案——延迟降到1-2秒且翻译质量不降,做会议同传或语音助手的开发者可以直接参考。
arXiv cs.AI@Shaoan Zhao, Huanlin Gao, Qiang Hui, Ting Lu, Xueqiang Guo, Yantao Li, Xinpei Su, Fuyuan Shi, Chao Tan, Fang Zhao, Kai Wang, Shiguo Lian精选47MediaClaw 是一个基于 OpenClaw 生态构建的多模态智能体平台,旨在解决 AIGC 落地中的碎片化能力、异构接口、生产流程割裂和高质量工作流复用难等痛点。其核心采用三层架构:统一抽象层将全品类 AIGC 能力抽象为统一调用模型,插件化扩展层支持热插拔能力扩展,工作流编排层通过面向任务的 Skills 将复杂生产过程转化为可复用资产。该技术报告重点阐述了 MediaClaw 的架构设计理念、核心能力模型的设计逻辑以及实现中的关键工程权衡,为构建多模态能力平台提供了可复用的实践参考。论文多模态智能体AIGC平台架构工作流编排OpenClaw推荐理由:做多模态 AI 应用或 AIGC 平台架构的团队,可以直接参考 MediaClaw 的三层抽象和插件化设计,解决能力碎片化和工作流复用难题,建议点开看看工程权衡细节。
arXiv cs.AI@Suorong Yang, Hanqi Zhu, Hai Gan, Fangjian Su, Guang Li, Furao Shen, Soujanya Poria精选58现有数据选择方法主要关注“选什么”,但固定选择比例,忽略了动态调整数据量的潜力。本文从优化角度揭示,选择比例会隐式调节正则化效果:低比例增强正则化,高比例保持数据覆盖和优化保真度。为此,提出PODS框架,作为轻量级即插即用模块,在训练中动态调度选择数据量,交替低比例正则化阶段和高比例恢复阶段,平衡效率与泛化。实验表明,PODS可将ImageNet-1k训练成本降低50%且提升准确率,将LLM指令微调加速2倍以上且不损失性能。论文数据选择训练效率正则化即插即用PODS推荐理由:PODS解决了数据选择中“选多少”被忽视的问题,做模型训练优化的团队可以直接集成到现有方法中,无需改动评分指标,值得一试。
arXiv cs.AI@Lata B T, Savitha N J37该研究提出使用深度确定性策略梯度(DDPG)深度学习算法来改进犯罪调查中的嫌疑人识别。传统方法依赖有限数据分析,易产生误报和漏报。DDPG模型通过训练犯罪现场材料、证人陈述和嫌疑人档案等复杂数据集,最大化识别罪犯的可能性,同时减少噪声和无关数据的影响。实验结果显示,该方法在识别罪犯时准确率高达95%,优于现有多种方法。论文DDPG深度学习犯罪识别刑侦AI准确率95%推荐理由:这项研究为刑侦领域提供了AI驱动的精准识别方案,做犯罪数据分析或公共安全研究的团队值得关注,能显著降低误判率。
arXiv cs.AI@William Lugoloobi, Samuelle Marro, Jabez Magomere, Joss Wright, Chris Russell精选67研究人员发现,基于LLM的浏览器代理在网页上执行任务时,其操作序列和交互时间可以被被动JavaScript追踪器捕获,从而以高达96%的F1分数识别出底层模型。该研究覆盖了14个前沿LLM和四个网页环境,包括信息检索和购物任务。攻击者可以利用此漏洞针对已知模型漏洞发起定向攻击。虽然注入随机时间延迟可以降低分类器性能,但重新训练后仍能恢复大部分识别能力。研究团队已发布相关工具和标注数据集。论文LLM代理安全/隐私指纹识别浏览器自动化模型漏洞推荐理由:这项研究揭示了LLM代理的一个重大安全风险——网站可以被动识别你的AI模型,做AI安全和隐私保护的团队值得关注,建议开发者检查自己的代理是否容易通过UI痕迹被指纹识别。
arXiv cs.AI@Songyang Gao, Yinghui Xia, Siyi Liu, Hui Xiong精选58现有 LLM 生成研究想法的方法多依赖静态文献检索或复杂提示工程,忽略了文献间的结构关系。研究者提出 Graphs of Research (GoR),通过提取每篇种子论文的 2 跳引用邻居,从引用位置、频率、前驱链接和发表时间推导关系,构建论文演化有向无环图 (DAG)。他们从五大 ML/NLP 会议收集数据,微调 Qwen2.5-7B-Instruct-1M 模型,在头对头 LLM 裁判锦标赛中击败 gpt-4o 基线,达到 SOTA。该方法证明了引文演化图作为监督信号的有效性,有望降低自动化科学创新的门槛。论文研究想法生成引文演化图LLM微调自动化科研Qwen2.5推荐理由:做自动化科研或 AI 辅助创新的研究者,可以试试用引文关系图替代静态检索来激发 LLM 的创意,GoR 直接开源了数据和微调方法。
arXiv cs.AI@Licong Xu, Thomas Borrett精选58这篇论文提出了两个面向宇宙学的AI智能体系统:CMBEvolve通过LLM引导的代码进化和树搜索,针对有明确量化目标的任务(如弱引力透镜图中的异常检测)进行优化;CosmoEvolve则构建虚拟多智能体研究实验室,用于开放式的科学工作流(如自主分析ACT DR6数据)。初步实验显示,CMBEvolve能通过代码进化迭代提升基准分数,CosmoEvolve能识别非平凡的成对和尺度依赖行为并生成分析级诊断。这项工作展示了宇宙学如何为AI科学家系统的开发提供可控基准和真实开放研究问题。论文AI智能体宇宙学代码进化多智能体系统科学发现推荐理由:宇宙学研究者终于有了能自主推进发现的AI工具——CMBEvolve和CosmoEvolve分别解决了定量优化和开放式探索两大痛点,做数据分析或理论建模的团队可以直接参考其方法。
arXiv cs.AI@Zhao Yang, Wang Huan, Li Yingshuo, Tu Haomiao, Lin Hujite精选58ARPM 是一个外部时序记忆治理框架,旨在解决大语言模型在长程交互中常见的事实丢失、时间线混乱、人格漂移和稳定性下降问题。该框架将静态知识记忆与动态对话经验记忆分离,结合向量检索、BM25、RRF融合、双时序重排序、时序证据阅读和受控分析协议,实现证据验证与答案绑定。实验表明,在50轮问答中,ARPM在1:5信噪比下人工审查召回率达100%,在1:200+下仍达80%;消融实验显示,禁用对话历史检索后严格准确率从100%降至66.7%。该方法将长期人格一致性分解为可治理的组件,支持白盒评估。论文长期记忆人格一致性检索增强生成时序记忆ARPM推荐理由:做对话系统或长期记忆研究的团队,ARPM 把人格一致性从玄学变成了可审计、可迁移的工程问题,值得看看它的实验设计和消融结果。
arXiv cs.AI@Vineet Kotecha, Vansh Gupta精选73当前语言模型在会话间缺乏状态记忆,限制了长期个性化交互。研究者提出情感注意状态记忆(EASM)架构,在推理时动态构建用户特定上下文,整合长期历史、情感信号和推断意图。在30次非脚本对话的A/B测试中,EASM在记忆基础(提升95%)、计划清晰度(57%)和情感验证(34%)上显著优于无状态基线,即使在悲伤、痛苦等情感对抗对话中也表现稳定。该架构可能成为超个性化AI系统的基础设施层,但需更大规模验证。论文情感记忆超个性化状态记忆对话系统EASM推荐理由:EASM解决了AI对话缺乏长期记忆和情感理解的痛点,做对话系统或个性化AI产品的团队值得关注,它让AI真正记住你是谁、感受如何。
arXiv cs.AI@Paolo Mandica, Michał Brzozowski, Zuzanna Dubanowska, Neo Christopher Chung精选58GPart 提出一种全新的参数高效微调方法,通过全局等距分区矩阵直接将低维可训练向量映射到模型全权重空间,完全去除了低秩瓶颈。与 LoRA 等现有方法不同,GPart 保持了映射的距离保持性(等距性),避免了优化景观扭曲问题。该方法仅需一个随机投影、一个超参数(维度 d)和 d+1 个存储值(向量加随机种子),极其简洁高效。实验表明,GPart 在自然语言理解、计算机视觉和数学推理任务上达到或超越现有 PEFT 方法的性能。这项工作为参数高效微调提供了更优雅的理论基础和实践路径。论文参数高效微调LoRA等距映射GPart大模型推荐理由:GPart 用极简设计解决了 LoRA 等方法的优化扭曲问题,做模型微调的研究者和工程师可以直接参考其理论框架,尤其适合追求极致参数效率的团队。
arXiv cs.AI@Thomas Witt精选73XFP是一种针对大语言模型推理的动态权重量化器,它颠覆了传统工作流:用户只需指定每通道余弦相似度的重建质量阈值(注意力与共享专家用严格阈值,路由专家MoE用宽松阈值),XFP自动确定码本大小、异常值预算和每层打包方式,无需Hessian矩阵、校准数据或手动位宽选择。每个权重矩阵被分解为稀疏fp16异常值残差和密集的子字节索引张量(指向每组的可学习码本)。在Qwen3.5-122B-A10B模型上,XFP在RTX PRO 6000 Blackwell工作站上实现138 tok/s单流解码,GSM8K准确率94.49%,比Marlin INT4快49%。对于无法装入目标内存的模型,XFP提出H-Process:通过迭代两个余弦阈值找到刚好能装入模型且输出合理的操作点。在Qwen3.5-397B-A17B上,H-Process将全部专家装入2×96 GB内存(约3.4有效比特),实现100.9 tok/s长输出解码,GSM8K准确率66.72%,在内存、吞吐量和准确率上同时超越带路由专家剪枝的INT4。论文量化LLM推理码本量化异常值分离XFP推荐理由:XFP解决了LLM量化中手动调参和校准数据依赖的痛点,做模型部署和推理优化的团队可以直接用上自动化的高质量量化方案,省去大量调参时间。
arXiv cs.AI@Zhigao Huang, Zhengqing Hu, Dong Chen, Shaohan Zhang, Zhao Jin, Bo Zhang, Han Wu, Mingliang Xu精选58针对现代战场环境下传统作战规划生成不可行、验证不充分的问题,研究者提出IFPV框架。该框架包含多视角分层智能体(MPHA)用于生成可执行的多平台战术动作序列,以及对抗认知仿真引擎(ACSE)用于高保真验证。ACSE引入带有定制世界模型的对手,能预测关键平台未来演化并动态对抗候选计划。在非对称作战战术模拟器(ACTS)中,IFPV相比单步大语言模型基线,任务成功率提升19.4%,作战成本降低41.7%;相比传统规则验证器,平均压制率提高31.8%。代码已开源。论文多智能体作战规划仿真验证开源/仓库IFPV推荐理由:军事AI和仿真验证领域的团队终于有了一个可落地的多智能体框架——IFPV不仅生成计划,还能通过对抗仿真找出漏洞,做作战规划或复杂系统验证的开发者可以直接用开源代码复现。
arXiv cs.AI@Patrick Kwon, Chen Chen精选58FactorizedHMR 提出了一种两阶段混合框架,将人体网格恢复中的确定性部分(躯干和根部姿态)与不确定性部分(四肢等远端关节)分开处理。第一阶段使用确定性回归模块稳定恢复躯干-根部锚点,第二阶段通过概率流匹配模块完成剩余关节的恢复,并引入合成数据管道和几何感知监督来提升遮挡场景下的鲁棒性。实验表明,该方法在遮挡严重和世界空间漂移敏感的指标上优于现有基线。论文人体网格恢复遮挡处理概率流匹配合成数据FactorizedHMR推荐理由:人体网格恢复在遮挡场景下的歧义问题一直是个难点,做3D人体重建的团队可以看看这个分治思路——先稳住躯干再补四肢,比端到端方法更可靠。
arXiv cs.AI@Lukas Schelenz, Shobha Rajanna, Denis Gosalci, Lucas Heublein, Jonas Pirkl, Jonathan Ott, Felix Ott, Christopher Mutschler, Tobias Feigl精选58该论文研究了在信号处理管道中预测动态运动(如NBA球员轨迹)的挑战,传统方法如ARIMA和卡尔曼滤波难以处理非线性动态。机器学习方法如LSTM、GNN和Transformer提供了更高灵活性,但常未能显式捕捉时间依赖与上下文交互。实验表明,混合LSTM结合上下文信息在2秒预测范围内实现了最低最终位移误差1.51米,优于TCNN、GAT和Transformer,且所需数据和训练时间更少。研究强调没有单一架构在所有指标上最优,需根据任务选择模型。论文轨迹预测LSTMGNNTransformerNBA推荐理由:做运动轨迹预测或动态系统建模的团队,这篇论文对比了主流模型的实际表现,混合LSTM方案在效率和精度上都有亮点,值得参考。
arXiv cs.AI@Yu Zhang, Dongjiang Zhuang, Qu Zhou, Zheng Huang, Junhe Wu, Jing Cao, Kai Chen精选58该论文提出了一种确定性智能体工作流,用于解决HS关税分类这一高难度专家任务。传统端到端大模型提示方法在多维规则推理中常失败,而该工作流通过固定控制流、将语言模型调用限制在狭窄阶段,并保留局部反思与验证机制,实现了可解释性。在HSCodeComp数据集上,使用Qwen3.6-plus模型达到六位数64.2% top-1和78.3% top-3准确率;开源模型Qwen3.6-27B-FP8在非思考模式下与前沿模型有高度一致性。手动审计发现部分基准标签可能偏离HS通用规则,相关记录已公开。论文智能体工作流HS关税分类可解释AI规则推理开源模型推荐理由:做国际贸易合规或海关数据自动化的团队,终于有了一个可解释、可审计的AI分类方案,比黑箱模型更可靠,建议直接看论文的六阶段流水线设计。
arXiv cs.AI@Zheng Yan, Jingxiang Weng, Charles Chen, Dengyun Peng, Ethan Qin, Jiannan Guan, Jinhao Liu, Qiming Yu, Yixin Yuan, Fanqing Meng, Carl Che, Mengkang Hu精选58该论文研究了编码智能体在执行终端任务时,能否自主推断出最小权限授权边界。作者提出了权限边界推断任务和AuthBench基准测试,包含120个真实终端任务及人工审核的权限标签。实验发现,前沿模型在授权时往往既遗漏必要权限又授予多余敏感权限,且增加推理时间并不能解决这一问题,反而使模型趋向于各自的授权吸引子(要么过于宽松,要么过于严格)。为此,作者提出了充分性-紧致性分解方法,先通过前向模拟生成覆盖性策略,再审计每个授权项的合理性,该方法在多个模型上提升了敏感任务成功率并降低了攻击成功率。论文编码智能体权限安全最小权限原则AuthBench充分性-紧致性分解推荐理由:做AI安全或智能体部署的团队会关心——这篇论文揭示了当前编码智能体在权限管理上的根本缺陷,并给出了可落地的分解方案,值得直接参考。
berryxia@berryxia58开发者 neilsonks 开源了一个完整的 3D 生成工具包,专门为 Claude Code 设计。用户只需输入一张图片,工具包就能自动将场景拆解为可交互的 3D 世界,包括环境、网格、物理、灯光和音频。流程包括图像生成、3D 物体提取、背景清理、物理模拟和实时渲染。配套的查看器 App 支持编辑、导出 scene.json。以前从 2D 到 3D 场景需数天,现在几分钟即可完成。AI产品3D 生成Claude Code开源/仓库游戏开发产品可视化推荐理由:做游戏、世界构建或产品可视化的开发者,现在可以用 Claude Code 几分钟把概念图变成可交互 3D 场景,省去数天手动建模时间,建议直接试。
berryxia@berryxia58牛津大学博士后、前Meta和Microsoft研究员Kevin Lin发布了开源视频翻译工具Violin。该工具将ASR、LLM翻译和TTS无缝集成,可自动完成语音识别、多语言翻译和自然语音合成。用户可个性化翻译风格,将学术报告转为通俗版本,还能直接与视频聊天提问。Violin支持Web应用、CLI和Agent Skill,完全MIT开源,旨在打破语言壁垒,让高质量内容全球化。AI产品视频翻译开源/仓库ASRLLM翻译TTS推荐理由:做内容、教育或跨语言传播的团队,这个工具能一键解决视频翻译痛点,还能直接和视频对话,建议立刻装起来试试。
Together AI@togethercompute63Together AI 的语音转文本(STT)模型在 Artificial Analysis 排行榜上包揽了转写速度的前两名。其中 NVIDIA Parakeet TDT 0.6B V3 排名第一,每秒可处理 303 秒音频,速度最快。该模型每 1000 分钟音频仅需 1.50 美元,在三个真实数据集上的平均词错误率为 4.6%。对于构建实时语音助手的 AI 开发者来说,快速 STT 是核心基础设施,Together AI 的云服务能帮助团队降低转录、推理和响应的整体延迟。AI产品语音转文本Together AINVIDIA Parakeet实时语音AI云服务推荐理由:实时语音助手开发者终于有了速度最快的 STT 模型——每秒处理 303 秒音频,成本还低,做语音交互的团队可以直接在 Together AI 上试试。
@OpenAIDevs@OpenAIDevs67OpenAI 在将 Codex 引入 Windows 时面临一个难题:如何让编程代理保持有用,同时避免开发者陷入频繁审批提示或完全机器访问的两难。他们构建了一个 Windows 沙盒环境,允许 Codex 在受限权限下执行代码,既保障系统安全,又减少用户中断。这一设计解决了 AI 编程助手在 Windows 平台上的关键安全与可用性矛盾,使开发者能更流畅地使用 Codex 进行自动化任务。AI产品编程助手CodexWindows沙盒安全推荐理由:Windows 开发者终于有了安全的 AI 编程代理方案——Codex 沙盒解决了权限与效率的平衡难题,做自动化脚本或 CI/CD 的团队可以直接用,建议点开看实现细节。
@OpenAIDevs@OpenAIDevs53OpenAI 为 Codex 推出了 Hooks 和程序化访问令牌两项新功能。Hooks 允许开发者在任务的关键节点运行自定义脚本,例如在任务前后执行验证器、扫描提示中的敏感信息、记录对话到内部系统,或按仓库/目录定制行为。程序化访问令牌则为企业和团队提供了作用域凭证,可在 CI、发布工作流和内部自动化中使用,支持设置过期时间或随时撤销。这些更新使 Codex 能更深度地集成到现有开发流程中,提升安全性和灵活性。AI产品CodexOpenAI编程助手自动化企业级推荐理由:Codex 的 Hooks 和访问令牌让 AI 编程助手真正融入团队工作流,做 CI/CD 或需要安全合规的开发者可以直接用起来。
Claude Code: GitHub Releases@ashwin-ant精选37Anthropic 发布了 Claude Code v2.1.142,主要新增了多个 claude agents 配置标志,包括 --add-dir、--settings、--mcp-config 等,方便自定义后台会话。快速模式默认升级为 Opus 4.7(原 Opus 4.6),可通过环境变量回退。修复了 MCP 工具超时、macOS 休眠后代理消失、Windows 网络驱动器死锁等关键问题,并改进了插件展示和会话标题生成逻辑。AI产品Claude Code代理/AgentMCP/工具修复/优化Anthropic推荐理由:这次更新对使用 Claude Code 做自动化任务的开发者很关键——修复了 macOS 休眠后代理丢失和 MCP 超时硬限制,后台工作流更稳定了。建议升级后重点测试后台代理和 MCP 工具调用。
claudedevs@ClaudeDevs58Claude API 用户可通过预热提示缓存来缩短长提示的首 token 生成时间。具体做法是先发送系统提示(system prompt)而不生成输出,让 Claude 将其写入缓存。当实际用户请求到来时,缓存已预热,从而加速响应。这一技巧对处理长上下文或复杂提示的开发者特别有用,能显著提升 API 调用效率。技巧ClaudeAPI提示缓存性能优化开发者技巧推荐理由:做 Claude API 集成的开发者,这个预热缓存技巧能直接降低长提示的响应延迟,值得在项目中试试。
Matt Wolfe@mreflow58OpenAI 为 Codex 新增了远程操控功能,用户无需守在电脑前即可引导 AI 编程助手完成任务。这一更新解决了 Codex 用户长期以来的痛点,极大提升了工作流的灵活性和效率。用户表示这是他们最期待的功能,尤其适合需要移动办公或远程协作的开发者。AI产品OpenAICodex编程助手远程操控工作流推荐理由:远程操控功能让 Codex 从桌面工具升级为移动助手,经常需要离开电脑的开发者可以随时调整任务,建议试试。
Ethan Mollick@emollick58Ethan Mollick 指出,第二条缩放定律(Second Scaling Law)依然未被打破:只要增加 LLM 的思考 token(thinking tokens),就能在黑客攻击、数学、科学、填字游戏等任务上获得更好表现。目前尚未观察到性能平台期。这一发现对依赖推理能力的 AI 应用开发者有直接指导意义,意味着通过增加计算资源(而非仅扩大模型规模)即可持续提升模型在复杂任务上的表现。论文缩放定律推理模型思考 tokenLLM 性能Ethan Mollick推荐理由:做 LLM 推理优化或复杂任务应用的团队,这条定律意味着你不需要等更大模型——加思考 token 就能直接提升效果,值得在现有模型上试试。
IT之家(博客/媒体)63安全专家利用 Anthropic 最强 AI 模型 Claude Mythos,在苹果 macOS 26.4.1 系统中成功实现提权攻击,从普通本地账户获取 root shell 并绕过 Apple Silicon 的 MIE 保护。攻击结合了 2 个漏洞和多种利用技巧,由人类研究员与 AI 共同完成,耗时约 5 天。这是首个公开的 Apple M5 内核内存破坏利用案例,凸显 AI 在安全研究中的辅助价值。苹果正在审查漏洞,技术细节暂未公开。行业安全漏洞macOSClaude MythosApple Silicon提权攻击推荐理由:安全研究员和 macOS 开发者值得关注——AI 辅助挖洞的效率正在质变,Claude Mythos 帮团队 5 天就打通了 M5 内核提权链,建议点开看看 AI 如何加速漏洞发现。