AITOP

5月14日

11:23

IT之家（博客/媒体）

小米发布并开源了 Xiaomi OneVL，一个一步式潜空间语言视觉推理框架。雷军称，该模型在业内率先通过潜空间推理将 VLA（视觉语言动作模型）和世界模型统一到同一框架中。在推理和规划等主流基准上，Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT，速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源，邀请全球开发者探索自动驾驶大模型的可能性。

AI模型自动驾驶 Xiaomi OneVL VLA 世界模型潜空间推理

推荐理由：小米把 VLA 和世界模型统一到一套框架，解决了自动驾驶多模型协同的痛点，做自动驾驶或具身智能的开发者可以直接用开源代码试试，性能还刷新了基准。

01:10

IT之家（博客/媒体）

中国科学技术大学潘建伟团队成功研制出“九章四号”量子计算原型机，拥有1024个量子压缩态输入和8176个模式，首次操纵3050个光子的量子态，求解高斯玻色取样问题比全球最快超级计算机快10的54次方倍。该成果发表在《自然》期刊，解决了光量子计算中光子损耗的瓶颈，通过高效光源和时空混合编码技术实现连接度立方级扩展。这标志着光量子计算在规模和复杂度上的重大飞跃，巩固了中国在光量子计算领域的领先地位。

AI模型九章四号量子计算光量子中国科学技术大学自然期刊

推荐理由：量子计算研究者或关注前沿科技的读者，这是光量子计算里程碑式突破——九章四号将算力提升到超经典计算机10^54倍，直接刷新世界纪录，值得深入了解其技术细节。

5月13日

17:17

IT之家（博客/媒体）

精选70

小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架，首次将 VLA（视觉语言动作）与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限，同时提供语言和视觉双维度的可解释性。相比传统方法，OneVL 在精度上超越显式 CoT，在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。

AI模型自动驾驶 VLA 世界模型开源/仓库小米

推荐理由：自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法，做端到端驾驶或世界模型开发的团队可以直接拿来用。

13:05

IT之家（博客/媒体）

精选70

面壁智能联合清华大学及 OpenBMB 开源社区发布 MiniCPM-V 4.6，参数规模 1.3B，仅需约 6GB 内存即可在端侧流畅运行。该模型在 Artificial Analysis 评测中以 13 分超越 Ministral 3 3B，整体能力接近 Qwen3.5-2B 级别。效率方面，基于 vLLM 框架的 Token 吞吐量是 Qwen3.5-0.8B 的 1.5 倍，计算 Token 消耗仅为后者的 2.5%。技术创新包括 LLaMA-UHD v4 架构，将图像编码计算量降低 55.8%，处理 3132×3132 高清图首字延迟仅 75.7 毫秒。模型已全面开源，支持 iOS、Android 和 HarmonyOS 等系统。

AI模型大模型多模态开源/仓库 MiniCPM-V 面壁智能

推荐理由：1.3B模型6G内存就能跑

00:33

Google Developers Blog（博客/媒体）

Google在Orbax和MaxText中引入了持续检查点功能，旨在平衡模型训练的可靠性与性能。传统固定频率检查点要么牺牲可靠性，要么成为性能瓶颈。持续检查点通过异步方式，仅在上一次保存成功后启动新保存操作，最大化I/O带宽并降低故障风险。基准测试显示，该方法显著减少检查点间隔，在大规模训练中（平均故障间隔短）能大幅节约资源。

AI模型模型训练可靠性检查点 Orbax MaxText

推荐理由：对于大规模训练任务，持续检查点能有效提升资源利用率和系统稳定性，是应对硬件故障、优化训练吞吐量的实用方案。

00:33

Google Developers Blog（博客/媒体）

Google DeepMind推出Gemma 4系列开源模型，专为在设备端实现多步规划和自主智能体工作流而设计。该系列包含Google AI Edge Gallery供开发者实验“Agent Skills”，以及LiteRT-LM库，提供显著的速度提升和结构化输出。Gemma 4采用Apache 2.0许可，支持140多种语言，兼容移动设备、桌面电脑和Raspberry Pi等IoT平台。

AI模型智能体 Gemma 4 边缘计算开源/仓库多模态

推荐理由：此发布将前沿的智能体能力带入低功耗设备，为边缘AI应用（如本地化助手和离线自动化）提供了新的可能性，对开发者社区和物联网领域具有实际参考价值。

00:33

Google Developers Blog（博客/媒体）

Google 宣布 Gemini Embedding 2 正式可用，该模型能将文本、图像、视频、音频和文档映射到统一的语义空间，支持在单一请求中处理交错的多模态输入。它显著提升了智能体 RAG、视觉搜索和内容审核等任务的性能，支持超过 100 种语言，并提供任务特定前缀和 Matryoshka 维度缩减等功能。这使得构建复杂 AI 代理更加高效和精准。

AI模型 Gemini Embedding 2 多模态智能体向量嵌入 RAG

推荐理由：对需要跨模态语义搜索和智能体构建的开发者而言，Gemini Embedding 2 的统一嵌入能力可简化架构并提升检索质量，值得关注其在实际部署中的表现。

00:33

Google Developers Blog（博客/媒体）

加州大学圣地亚哥分校研究者将DFlash（一种块扩散推测解码方法）成功部署到Google TPU上，通过单次前向传播“绘制”整个候选词块，绕过传统自回归逐步预测的顺序瓶颈。该系统在TPU上实现了平均3.13倍的加速，峰值性能接近现有EAGLE-3方法的两倍。该开源方案已集成至vLLM生态，利用TPU的免费并行验证和高品质草稿预测，显著提升复杂推理任务的效率。

AI模型推理加速推测解码 TPU 开源/仓库 vLLM

推荐理由：这一工作展示了扩散式推测解码在TPU上的实际落地价值，突破传统推测解码的顺序瓶颈，尤其利好大规模LLM推理场景。开源集成至vLLM有助于行业快速采用。

5月11日

00:23

OpenAI Blog（博客/媒体）

OpenAI 开发了一个仅通过预测亚马逊评论中下一个字符进行训练的无监督系统，却能学习到高质量的情感表示。这一发现表明，简单自监督任务可隐式捕获高级语义特征。

AI模型 unsupervised-learning sentiment-analysis language-modeling openai

推荐理由：为无监督学习在情感分析等任务中提供了新路径，降低了对标注数据的依赖。

00:23

OpenAI Blog（博客/媒体）

精选85

OpenAI推出Proximal Policy Optimization（PPO）强化学习算法，相比现有最优方法性能相当或更优，且更易于实现和调参。PPO因其易用性和出色表现，已成为OpenAI默认的强化学习算法。

AI模型 reinforcement-learning ppo openai algorithm

推荐理由：PPO简化了强化学习训练流程，降低了调参成本，是当前强化学习实践中的首选算法。

00:22

OpenAI Blog（博客/媒体）

精选85

OpenAI 发布 GPT-4o 系统卡，详细介绍了模型的能力提升、安全评估及多模态性能。该模型在文本、图像、音频等多模态任务上表现优异，同时引入了更严格的安全机制。对于 AI 从业者，这提供了最新的多模态大模型基准及安全实践参考。

AI模型 multimodal safety gpt-4o system-card

推荐理由：了解 OpenAI 在安全与多模态融合方面的最新工程实践，对模型部署和风险评估至关重要。

00:22

OpenAI Blog（博客/媒体）

OpenAI发现，传统进化策略（ES）在现代强化学习基准测试中（如Atari/MuJoCo）表现与标准RL相当，同时解决RL的诸多不便。ES无需反向传播，无需值函数近似，且易于并行，为RL研究者提供新的优化路径。

AI模型 evolution-strategies reinforcement-learning optimization openai scalable

推荐理由：ES作为RL替代方案，降低训练复杂度，适合大规模并行实验，对AI工程师优化策略有启发价值。

00:21

OpenAI Blog（博客/媒体）

GPT-5.3-Codex是OpenAI最新发布的Codex原生智能体，将前沿编码性能与通用推理能力结合，支持长时间跨度的现实技术工作。它专为复杂软件开发任务设计，能自主规划、调试和迭代代码。

AI模型 codex agentic coding reasoning openai

推荐理由：对AI从业者而言，GPT-5.3-Codex代表了编码与推理融合的前沿，可能大幅提升自动化软件开发效率。

00:21

OpenAI Blog（博客/媒体）

精选80

OpenAI推出gpt-oss-120b和gpt-oss-20b两款开源权重模型，采用Apache 2.0许可。它们在推理任务上超过同级开源模型，具备强工具使用能力，并优化了在消费级硬件上的高效部署。

AI模型 open-source llm reasoning tool-use

推荐理由：标志着OpenAI首次开源高性能模型，对AI从业者进行低成本推理和工具集成研究有重要参考价值。

00:21

OpenAI Blog（博客/媒体）

文章强调深度学习作为实证科学，基础设施质量对进展有倍增效应。当前开源生态使任何人都能构建高质量深度学习基础设施，降低进入门槛。

AI模型 deep-learning infrastructure open-source

推荐理由：对AI从业者而言，理解基础设施对模型研发效率的关键影响，可指导优化工作流和资源分配。

00:21

OpenAI Blog（博客/媒体）

精选85

OpenAI在Dota 2中的成果表明，通过自我对弈和充足算力，系统能在一个月内从匹配高排名玩家进步到击败顶级职业选手。自我对弈系统能自动生成更高质量的训练数据，突破监督学习依赖固定数据集的局限。

AI模型 self-play reinforcement-learning dota-2 superhuman ai-gaming

推荐理由：展示了自我对弈在复杂策略游戏中突破监督学习上限的潜力，对强化学习和AI博弈研究具有重要参考价值。

00:20

OpenAI Blog（博客/媒体）

AI模型 generative-models unsupervised-learning openai research

推荐理由：了解OpenAI在生成模型领域的最新实践与战略方向，对把握AI技术前沿有参考价值。

00:20

OpenAI Blog（博客/媒体）

OpenAI提出通过学习深度逆动力学模型来解决仿真环境到真实世界的迁移问题。该方法利用深度神经网络学习从状态到动作的映射，弥合模拟与真实之间的差异，提升机器人控制策略在现实中的表现。这项工作为强化学习在真实机器人上的应用提供了可行的迁移方案。

AI模型 sim-to-real deep-learning robotics inverse-dynamics

推荐理由：解决了强化学习从模拟到实体机器人的关键鸿沟，对机器人控制与自动化的AI实践者具有直接参考价值。

00:19

OpenAI Blog（博客/媒体）

OpenAI开发了一个通过自我对弈从零学习Dota 2的AI机器人，在1v1比赛中击败了世界顶级职业选手。该机器人不使用模仿学习或树搜索，展现了在复杂环境中通过强化学习完成目标的潜力。

AI模型 reinforcement-learning dota-2 openai game-ai self-play

推荐理由：展示了强化学习在复杂游戏中的突破，对AI在现实世界应用有借鉴意义。

00:19

OpenAI Blog（博客/媒体）

OpenAI发现，竞争性自我对弈可让AI在无监督下自主学会抢断、躲避等物理技能，无需预设环境。该方法能动态调整难度匹配AI水平，结合Dota 2的成果，预示自我对弈将成为未来强力AI的核心训练范式。

AI模型 self-play reinforcement-learning multi-agent openai

推荐理由：对强化学习从业者而言，验证了自我对弈突破非标技能的天花板，是低成本获取复杂策略的关键路径。

00:19

OpenAI Blog（博客/媒体）

OpenAI提出一种分层强化学习算法，通过学习高层动作（如行走方向）加速解决长时序任务。在导航任务中，算法自动发现行走和爬行的方向性高层动作，使智能体能够快速掌握新导航技能。该工作展现将抽象动作与底层控制结合的潜力。

AI模型 reinforcement-learning hierarchical-rl navigation openai

推荐理由：分层RL是解决稀疏奖励和长horizon任务的关键方向，本方法提供了一种自动发现高层动作的实用范式，对具身智能和机器人领域有重要参考价值。

00:19

OpenAI Blog（博客/媒体）

OpenAI开源了针对块稀疏权重神经网络优化的GPU内核，相比cuBLAS和cuSPARSE可实现数量级加速。该内核在文本情感分析、文本和图像生成建模中取得最先进成果，为稀疏网络在AI领域的实际应用开辟新路径。

AI模型 sparse-kernels gpu-optimization open-source neural-networks efficiency

推荐理由：稀疏计算是提升模型效率的关键，此内核大幅降低块稀疏网络的部署门槛，对模型加速和资源优化有直接意义。

00:18

OpenAI Blog（博客/媒体）

OpenAI 在仿真机器人摔跤任务中展示，元学习智能体能快速击败更强的非元学习对手，并能适应物理故障。这证明了元学习在竞争和适应场景中的潜力。

AI模型 meta-learning reinforcement-learning robotics adaptation

推荐理由：该研究展示了元学习在强化学习中的实际优势，对AI从业者在设计自适应与对抗性系统有重要参考。

00:18

OpenAI Blog（博客/媒体）

OpenAI 开发的新技术使机器人控制器完全在模拟环境中训练后，能直接部署到物理机器人上，并实时应对环境中的意外变化。与以往的开环系统不同，新方法实现了闭环控制，让机器人能更灵活地完成简单任务。这项突破有望大幅降低机器人训练的物理成本，加速从模拟到现实的应用。

AI模型 robotics sim-to-real closed-loop reinforcement-learning openai

推荐理由：展示了sim-to-real闭环控制的可行方案，对机器人RL（强化学习）和部署有直接借鉴意义。

00:17

OpenAI Blog（博客/媒体）

OpenAI提出的非对称演员评论家架构允许机器人仅通过视觉输入进行操作，同时学习过程利用了状态信息。演员网络接收图像，评论家网络则使用真实状态信息训练，突破了传统端到端视觉学习的瓶颈。该方法显著提高了机器人从图像中学习复杂任务的效率。

AI模型 robotics reinforcement-learning actor-critic computer-vision openai

推荐理由：该工作展示了如何利用模拟中的额外状态信息克服图像策略学习难题，对具身AI和机器人强化学习有重要启发。