Rethinking Local Perception in Lightweight Vision Transformer

视觉转换器(ViTs)在各种视觉任务中已被证明有效。然而,将它们resize到移动设备友好的大小会导致显著的性能下降。因此,开发轻量级的视觉转换器已成为一个重要的研究领域。本文介绍了Clofex,这是一个利用本地上下文增强的轻量级视觉转换器。Clofex探索了通常用于标准卷积操作中的全局共享权重与在注意力中出现的特定上下文增强权重之间的关系,然后提出了一个有效而直观的模块来捕获高频本地信息。在Clofe...

read more..

SparseViT: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

高分辨率图像使神经网络能够学习更丰富的视觉表示。然而,这种改进的性能的代价是计算复杂性不断增加,阻碍了它们在响应时间敏感应用程序中的使用。由于不是所有的像素都相等,跳过计算较少的重要区域提供一种简单而有效的措施来减少计算。然而,这难以将其转化为CNN的实际速度提升,因为这打破了密集卷积工作负载的规律性。在本文中,我们介绍了SparseViT,重新考虑了最近窗口式视觉转换器(ViT)的激活不为...

read more..

Robo3D: Towards Robust and Reliable 3D Perception against Corruptions

在安全关键应用中,环境噪声和传感器的自然干扰对3D感知系统的鲁棒性至关重要。现有的大规模3D感知数据集通常包含仔细清理的数据。然而,这种配置无法反映在部署阶段感知模型的可靠性。在本研究中,我们提出了Robo3D,这是第一个全面基准,旨在探测在非均匀场景下,从dversarial天气条件、外部干扰和内部传感器故障引起的自然干扰对3D检测器和分割器鲁棒性的测试。具体而言,我们考虑了八种干扰类型,它们...

read more..

PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose Estimation

近年来,基于Transformer的方法在Sequential 2D-to-3D lifting人类姿态估计方面取得了显著的成功。作为先驱工作,Poseformer捕捉了每个视频帧中人类关节的空间关系以及相邻帧中人类动态之间的关系,并取得了令人印象深刻的性能。然而,在真实场景中,Poseformer及其后续方法的性能受到两个因素的影响:(a) 输入关节序列的长度;(b) 2D关节检测质量。现有方法通常对输入序列中的所有帧应用自注意力,当帧数...

read more..

Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving

3D物体检测是自动驾驶中不可或缺的感知任务,以理解环境。眼睛视角(BEV)表示法已经显著改善了基于相机输入的3D检测性能在常见的基准数据上。然而,仍然缺乏对这些视觉依赖的BEV模型的稳健性的系统理解,这与自动驾驶系统的安全性密切相关。在本文中,我们评估了各种代表性模型在广泛设置下的自然和抗干扰稳健性,以完全理解他们的行为受到明确BEV特征的影响与没有BEV特征的模型相比。除了经典的设置,我们...

read more..

Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection

时间动作检测旨在预测视频中时间间隔和行动实例的分类。尽管表现令人期待,但现有的两流模型表现出较慢的推理速度,因为它们依赖于计算代价高的光学流。在本文中,我们介绍了一种分解的跨modal蒸馏框架,以构建强大的基于RGB的探测器,通过传递运动模式知识。具体来说,我们提议分别学习RGB和运动表示,并将其组合以进行动作定位。双重分支设计和不对称训练目标可实现有效的运动知识传递,同时保持RGB信息...

read more..

Model-agnostic explainable artificial intelligence for object detection in image data

对象检测是计算机视觉中的基本原理任务,通过开发大型和复杂的深度学习模型,已经取得了很大的进展。然而,缺乏透明度是一个重大的挑战,可能无法使这些模型得到广泛应用。可解释人工智能是一个研究领域,旨在开发方法,帮助用户理解基于人工智能的系统的行为、决策逻辑和漏洞。黑盒解释指的是在没有访问系统内部的情况下解释人工智能系统的决定。在本文中,我们设计和实现了一种名为“黑盒对象检测解释通过...

read more..

Impact of Video Processing Operations in Deepfake Detection

视频中的数字面部操纵检测引起了广泛的关注,因为这增加了公众信任的风险。为了抵消这种技术的恶意使用,已经开发了基于深度学习的 Deepfake 检测方法,并取得了令人印象深刻的结果。然而,这些检测器的性能和评估往往使用基准数据,而这些基准数据很难反映现实世界的情况。例如,各种视频处理操作对检测精度的影响并没有被系统地评估。为了解决这个差距,本文首先分析了众多实际影响因素和常见的视频处理...

read more..

Soft Neighbors are Positive Supporters in Contrastive Visual Representation Learning

比较性学习方法通过比较从一个实例到其他实例的视角来训练视觉编码器。通常,从一个实例创建的视角设置为正,而其他实例创建的视角设置为负。这种二元实例分类研究是为了改善自监督学习的特征表示。在本文中,我们重新考虑了实例分类框架,并发现二元实例标注不足以测量不同样本之间的相关性。提供一个直观的示例,给定一个随机的图像实例,可能存在在一个迷你批次中其他图像,其内容意义相同(即属于同一类...

read more..

BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird’s-Eye-View via Cross-Modality Guidance and Temporal Aggregation

将激光雷达和相机信息整合到眼睛视角(BEV)已经成为自动驾驶中三维物体检测的关键话题。现有方法大多采用独立的两个分支框架生成激光雷达和相机的BEV,然后进行自适应模式融合。由于点云提供了更准确的本地化和几何信息,它们可以作为可靠的空间先验,从图像中提取相关语义信息。因此,我们设计了一个激光雷达引导视图Transformer(LGVT)来有效地在BEV空间中获得相机表示,从而造福整个双分支融合系统。LGVT...

read more..