AITOP

arXiv cs.AI@Kaixin Zhu, Yiwen Tang, Yifan Yang, Renrui Zhang, Bohan Zeng, Ziyu Guo, Ruichuan An, Zhou Liu, Qizhi Chen, Delin Qu, Jaehong Yoon, Wentao Zhang

精选58

VGGT-Edit 是一种前馈式框架，用于文本驱动的原生3D场景编辑，解决了现有2D提升方法导致的纹理模糊和几何不一致问题。它通过深度同步文本注入对齐语义与空间姿态，并利用残差变换头直接预测3D几何位移，实现场景变形同时保持背景稳定。研究团队还构建了 DeltaScene 数据集，通过自动管道和3D一致性过滤确保高质量真值。实验表明，VGGT-Edit 在物体细节锐度、多视角一致性和推理速度上显著优于2D提升基线，支持近即时推理。

论文 3D场景编辑前馈式架构残差场预测文本驱动多视角一致性

推荐理由：做3D场景编辑或交互式应用的开发者，VGGT-Edit 直接预测3D位移而非逐帧2D编辑，解决了多视角不一致的痛点，值得一试。