AITOP

arXiv cs.LG@Alan Z. Song, Yinjie Chen, Mu Nan, Rui Zhang, Jiahang Cao, Weijian Mai, Muquan Yu, Hossein Adeli, Deva Ramanan, Michael J. Tarr, Andrew F. Luo

精选60

VECA（Visual Elastic Core Attention）提出了一种新的视觉Transformer架构，用核心-外围结构替代传统的全对全自注意力。通过一组可学习的核心token作为通信接口，图像patch只与核心交互，计算复杂度从O(N²)降为O(N)。该模型在分类和密集预测任务上性能与最新视觉基础模型相当，同时大幅降低计算成本。VECA还支持在推理时弹性调整计算量与精度，为高分辨率视觉任务提供了可扩展的替代方案。

论文视觉Transformer 高效注意力核心-外围结构线性复杂度 VECA

推荐理由：ViT在高分辨率场景下计算量爆炸的问题终于有了优雅解法——VECA用线性复杂度实现竞争性能，做视觉模型部署或高分辨率图像处理的团队值得关注。