AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:Wan 2.1×
5月15日
11:07
arXiv cs.LG@Xiang Fan, Yuheng Wang, Bohan Fang, Zhongzheng Ren, Ranjay Krishna
精选58
RefDecoder 是一种参考条件视频 VAE 解码器,通过将高保真参考图像信号直接注入解码过程来改善视频生成中的细节丢失和不一致问题。它使用轻量级图像编码器将参考帧映射为高维 token,并在解码器每个上采样阶段与去噪后的视频潜在 token 协同处理。在 Inter4K、WebVid 和 Large Motion 基准测试上,RefDecoder 相比无条件基线实现了最高 +2.1dB PSNR 的提升。该方法可直接替换现有视频生成系统中的解码器而无需额外微调,并在 VBench I2V 基准上全面提升了主体一致性、背景一致性和整体质量分数。此外,RefDecoder 还能泛化到风格迁移和视频编辑优化等多种视觉生成任务。
论文视频生成VAE解码器条件解码参考注意力Wan 2.1

推荐理由:视频生成中解码器长期被忽视,RefDecoder 用轻量级条件注入解决了细节丢失的痛点,做视频生成或编辑的团队可以直接替换现有系统试试,效果立竿见影。