GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...

read more..

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

read more..

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

预测不同动作的结果是自动驾驶中至关重要的一点。然而,现有的驾驶世界模型在泛化到未见环境方面仍然存在局限性,对于关键细节的预测精度和动作可控制性存在一定问题。在本文中,我们提出了Vista,一个具有高保真度和多功能的可扩展驾驶世界模型。通过系统地诊断现有方法,我们引入了几个关键要素来解决这些局限性。为了准确预测高分辨率下的实时动态,我们提出了两种新的损失来促进学习移动实例和结构信息...

read more..

Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients

自动语音识别模型需要大量的语音录音进行训练。然而,收集这些数据通常很费力,并导致隐私问题。分散学习作为一种有效的去中心化技术,在保持数据在不同的客户端本地的同时,协作学习一个共享预测模型,已经得到了广泛应用。然而,客户端设备通常具有有限的计算和通信资源,导致大型模型的实际困难。此外,边缘设备的异质性使得为它们生成一个适用于所有设备的单模型是不可能的。与最近的文章不同,使用具...

read more..

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

模拟真实交通代理之间的互动对验证自动驾驶系统的安全性至关重要。现有的领导模拟器主要使用编码器-解码器结构来编码未来模拟的历史轨迹。然而,这种范式会复杂化模型架构,而手动分离历史和未来轨迹会导致数据利用率低下。为了应对这些挑战,我们提出了Behavior Generative Pre-trained Transformers(BehaviorGPT),一种仅使用解码器的自回归架构,旨在模拟多个代理的序列运动。至关重要的是,我们的方...

read more..

Controllable Longer Image Animation with Diffusion Models

生成真实动画视频的计算机视觉领域是一个重要的研究课题。基于物理模拟和运动预测的方法已经取得了显著的进步,但它们通常局限于特定的物体纹理和运动轨迹,无法展示高度复杂的环境和物理 dynamics。在本文中,我们介绍了一种使用运动优先级和视频扩散模型进行开放领域的可控图像动画方法。我们的方法通过从视频中提取运动场信息来精确控制可移动区域的运动方向和速度,并学习运动轨迹和强度。当前的预训练...

read more..

Efficient Ensembles Improve Training Data Attribution

训练数据归因(TDA)方法旨在量化单个训练数据点对模型预测的影响,并在数据集中具有广泛的应用,如标签检测、数据选择和版权补偿。然而,该领域现有方法,可以分为基于重新训练和基于梯度的方法,在计算效率和归因效果之间存在权衡。基于重新训练的方法可以准确地归因复杂非凸模型,但计算成本高昂,而基于梯度的方法效率高,但往往无法处理非凸模型。最近的研究表明,通过为基于梯度的方法添加多个独立训...

read more..

Gaussian Embedding of Temporal Networks

代表连续时间图的节点在低维潜在空间中的表示具有广泛的应用,从预测到可视化。然而,通过时间戳交互分析连续时间关系数据引入了独特的挑战,因为其稀疏性。仅仅将节点嵌入到潜在空间中忽略了这种稀疏性,强调了在潜在位置周围的不确定性量化。在本文中,我们提出了TGNE(时间图神经网络嵌入),一种创新的方法,连接了两篇不同文献的两个不同领域:通过潜在空间模型(LSM)对网络进行统计分析(Hoff2002)...

read more..