AITOP

5月15日

10:54

arXiv cs.AI@Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou

精选58

生成式视频模型常被当作隐式世界模型，但现有评估方法依赖人工判断或学习评分器，难以诊断几何错误。研究者提出PDI-Bench框架，通过分割、点跟踪和单目重建，将生成视频中的物体提升到3D世界坐标，计算尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的残差。配套的PDI-Dataset覆盖多种几何约束场景，测试发现当前最先进的视频生成器存在一致的几何特定失败模式，这些模式不被常见感知指标捕获。该框架为迈向物理可信的视频生成提供了诊断信号。

论文视频生成世界模型几何一致性评估框架 3D重建

推荐理由：视频生成模型常被当作世界模型，但几何一致性是硬伤——PDI-Bench用定量方法暴露了现有模型在3D结构上的系统性失败，做视频生成或世界模型研究的团队值得用它来诊断自己的模型。

5月13日

17:17

IT之家（博客/媒体）

精选70

小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架，首次将 VLA（视觉语言动作）与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限，同时提供语言和视觉双维度的可解释性。相比传统方法，OneVL 在精度上超越显式 CoT，在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。

AI模型自动驾驶 VLA 世界模型开源/仓库小米

推荐理由：自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法，做端到端驾驶或世界模型开发的团队可以直接拿来用。