SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving

我们提出了一个新颖的合成多模态数据集SCaRL,以实现自动驾驶解决方案的训练和验证。多模态数据集在自动驾驶应用中至关重要,以实现自动驾驶系统的稳健性和高精度。由于基于深度学习的解决方案在物体检测、分类和跟踪任务中越来越普遍,对于自动驾驶来说,结合相机、激光雷达和雷达传感器的大数据集需求越来越大。然而,现有的自动驾驶数据集缺乏来自完整传感器套件的同步数据收集。SCaRL提供了来自红外的...

read more..

Efficient Visual Fault Detection for Freight Train via Neural Architecture Search with Data Volume Robustness

基于深度学习的故障检测方法已经取得了显著的成功。在货运列车视觉故障检测中,跨类别组件(尺度方差)之间的特征差异很大,但相反,在同一类别内,这会导致检测器的尺度意识。此外,任务特定网络的设计很大程度上依赖于人类专业知识。因此,由于其具有显著的性能,神经架构搜索(NAS)受到了很大的关注。然而,由于搜索空间巨大,数据量巨大,NAS 计算密集型。 在这项工作中,我们提出了一个高效的基于 NA...

read more..

Collective Perception Datasets for Autonomous Driving: A Comprehensive Review

为了确保自动驾驶汽车在复杂的城市环境中安全运行,需要全面感知环境。然而,由于环境条件、传感器限制和遮挡等因素,从单一视角获得完整的感知是不可能的。为解决这个问题,众包感知是一种有效的技术。训练和评估众包感知方法需要真实的大型数据集。本文是对自动驾驶背景下众包感知数据集的首次全面技术审查。调查分析了现有的V2V和V2X数据集,根据不同的标准将它们分类。重点关注它们在开发连接式自动驾...

read more..

Evaluation of Resource-Efficient Crater Detectors on Embedded Systems

实时分析火星坑对于任务关键操作(包括安全着陆和地质勘探)至关重要。这项工作利用了空间船上最先进的突破来进行边缘坑检测。我们用火星坑数据集 rigorously 基准了几个 YOLO 网络,重点分析它们在低功耗设备上的嵌入系统中的性能,为减小成本的商业现货卫星优化这个过程。我们在 Google Coral Edge TPU、AMD Versal SoC VCK190、Nvidia Jetson Nano 和 Jetson AGX Orin 等各种平台上实施这种优化。我们的...

read more..

OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

动态场景图生成(DSGG)关注视频的空间-时间域内的视觉关系。传统的解决方案通常采用多阶段流程,通常包括目标检测、时间关联和多关系分类。然而,由于多个阶段的分离,这些方法存在固有局限性,而独立优化这些子问题可能会产生次优解决方案。为了弥补这些局限性,我们提出了一个端到端的框架,称为OED,该框架简化了DSGG管道。该框架将任务重新建模为预测问题,并利用成对特征表示场景图中的每个主题-对象...

read more..

Hawk: Learning to Understand Open-World Video Anomalies

视频异常检测(VAD)系统可以自主监测和识别干扰,减少需要手动劳动和相关成本。然而,目前的VAD系统通常受到其对场景的表面语义理解有限以及用户交互微不足道的限制。此外,现有数据集普遍存在数据稀缺问题,这限制了它们在开放世界场景中的应用。在本文中,我们引入了Hawk,一种利用交互式大型视觉语言模型(VLM)精确解释视频异常的新框架。通过识别异常视频与正常视频之间的运动信息差异,Hawk明确地整...

read more..

ContrastAlign: Toward Robust BEV Feature Alignment via Contrastive Learning for Multi-Modal 3D Object Detection

在3D物体检测任务领域,将来自激光雷达和相机传感器的异构特征融合成一个统一的三维鸟视(BEV)表示是一种被广泛采用的方法。然而,现有的方法常常受到不精确的传感器校准的影响,导致在激光雷达-相机BEV融合中特征对齐误差。此外,这些误差还会导致相机分支的深度估计误差,最终导致激光雷达和相机BEV特征的对齐误差。 在这项工作中,我们提出了一种新颖的ContrastAlign方法,该方法利用对比学习来增强异...

read more..

Clustering-based Learning for UAV Tracking and Pose Estimation

UAV跟踪和姿态估计在各种UAV相关任务中扮演着至关重要的角色,如编队控制和反UAV措施。准确在三维空间中检测和跟踪UAV仍然是一个尤其具有挑战性的问题,因为需要从不同的飞行环境中提取微UAV的稀疏特征,并持续匹配对应关系,尤其是在敏捷飞行中。通常,相机和激光雷达是用于在飞行中捕捉UAV轨迹的主要传感器类型。然而,这两种传感器在UAV分类和姿态估计方面都有局限性。本技术报告简要介绍了我们团队提出...

read more..

A re-calibration method for object detection with multi-modal alignment bias in autonomous driving

在自动驾驶中,多模态目标检测取得了重大突破,得益于不同传感器互补信息的融合。传感器 such as LiDAR 和相机之间的融合校准总是被期望是精确的,但实际中,在车辆离开工厂时,校准矩阵被固定,可能会导致校准偏差。由于关于校准对融合检测性能的影响的研究相对较少,灵活的校准依赖多传感器检测方法一直很有吸引力。在本文中,我们对 SOTA 检测方法 EPNet++ 进行了实验,证明了校准偏差对检测性能的影响...

read more..

Image-level Regression for Uncertainty-aware Retinal Image Segmentation

精确的视网膜血管分割是定量评估视网膜血管的重要步骤,这对早期诊断视网膜疾病和其他条件非常重要。为了解决使用像素级分类方法自动分割血管的问题,许多研究已经进行了尝试。创建地面真实标签的常见做法是将像素归类为前景和背景。然而,这种方法是偏见的,它忽略了人类标注者对注释如薄血管的不确定性。在这项工作中,我们提出了一种简单而有效的将视网膜图像分割任务转化为图像级别回归的方法。为此,...

read more..