arXiv cs.LG@Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang, Jiahang Cao, Weijian Mai, Muquan Yu, Hossein Adeli, Deva Ramanan, Michael J. Tarr, Andrew F. Luo精选60VECA(Visual Elastic Core Attention)提出了一种新的视觉Transformer架构,用核心-外围结构替代传统的全对全自注意力。通过一组可学习的核心token作为通信接口,图像patch只与核心交互,计算复杂度从O(N²)降为O(N)。该模型在分类和密集预测任务上性能与最新视觉基础模型相当,同时大幅降低计算成本。VECA还支持在推理时弹性调整计算量与精度,为高分辨率视觉任务提供了可扩展的替代方案。论文视觉Transformer高效注意力核心-外围结构线性复杂度VECA推荐理由:ViT在高分辨率场景下计算量爆炸的问题终于有了优雅解法——VECA用线性复杂度实现竞争性能,做视觉模型部署或高分辨率图像处理的团队值得关注。