arXiv cs.AI@Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou精选58生成式视频模型常被当作隐式世界模型,但现有评估方法依赖人工判断或学习评分器,难以诊断几何错误。研究者提出PDI-Bench框架,通过分割、点跟踪和单目重建,将生成视频中的物体提升到3D世界坐标,计算尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的残差。配套的PDI-Dataset覆盖多种几何约束场景,测试发现当前最先进的视频生成器存在一致的几何特定失败模式,这些模式不被常见感知指标捕获。该框架为迈向物理可信的视频生成提供了诊断信号。论文视频生成世界模型几何一致性评估框架3D重建推荐理由:视频生成模型常被当作世界模型,但几何一致性是硬伤——PDI-Bench用定量方法暴露了现有模型在3D结构上的系统性失败,做视频生成或世界模型研究的团队值得用它来诊断自己的模型。
arXiv cs.AI@Anna C. Doris, Jacob Thomas Sony, Ghadi Nehme, Era Syla, Amin Heyrani Nobari, Faez Ahmed65CADBench 是一个统一的多模态基准测试,用于评估从图像或3D观测中恢复可编辑CAD程序的能力。该基准包含18,000个样本,涵盖六个基准家族(基于DeepCAD、Fusion 360等)、五种输入模态(如网格、渲染图)和六项指标(几何保真度、可执行性等)。评估了11个CAD专用及通用视觉语言系统,生成超过140万CAD程序。结果显示,在理想输入下专用模型优于通用模型,但模型在几何复杂度和模态变化下表现脆弱,且指标排名不一致。该基准旨在成为可编辑3D重建和多模态CAD理解的诊断工具。论文CAD程序生成多模态基准测试3D重建工程自动化推荐理由:为学界和工业界提供了一个标准化的评估框架,有助于澄清现有CAD程序生成方法的优劣及失败模式,尤其对工程设计自动化领域具有直接参考价值。