Rethinking Local Perception in Lightweight Vision Transformer
视觉转换器(ViTs)在各种视觉任务中已被证明有效。然而,将它们resize到移动设备友好的大小会导致显著的性能下降。因此,开发轻量级的视觉转换器已成为一个重要的研究领域。本文介绍了Clofex,这是一个利用本地上下文增强的轻量级视觉转换器。Clofex探索了通常用于标准卷积操作中的全局共享权重与在注意力中出现的特定上下文增强权重之间的关系,然后提出了一个有效而直观的模块来捕获高频本地信息。在Clofe...