5月15日
11:00
arXiv cs.AI@Yi Zhang, Yinda Chen, Che Liu, Zeyuan Ding, Jin Xu, Shilong Zou, Junwei Liao, Jiayu Hu, Xiancong Ren, Xiaopeng Zhang, Yechi Liu, Haoyuan Shi, Zecong Tang, Haosong Sun, Renwen Cui, Kuishu Wu, Wenhai Liu, Yang Xu, Yingji Zhang, Yidong Wang, Senkang Hu, Jinpeng Lu, Nga Teng Chan, Yechen Wu, Yong Dai, Jian Tang, Xiaozhu Ju
精选67
Pelican-Unified 1.0 是首个按照统一原则训练的具身基础模型,将场景理解、指令推理、未来想象和动作执行整合到单一模型中。它使用一个视觉语言模型(VLM)作为统一的理解和推理模块,并通过统一未来生成器(UFG)同时生成未来视频和动作。实验表明,统一并未牺牲性能:在八个VLM基准上平均得分64.7,在WorldArena上排名第一(66.03),在RoboTwin上达到93.5(动作方法中第二好)。该工作展示了统一范式在保持专家级性能的同时,将多种能力融合到一个模型中的可行性。
推荐理由:具身智能研究者终于有了一个统一框架——Pelican-Unified 1.0 用一个模型搞定理解、推理、想象和行动,不再需要拼凑三个独立系统。做机器人、仿真或多模态模型的团队值得关注,它证明了统一不意味着妥协。