Matryoshka Multimodal Models
大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...
大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...
3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...
Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...
近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...
近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...
由于需要与现实世界进行交互,具有实体代理需要具备全面的先验知识、长远的规划能力和快速的响应速度。尽管基于大型语言模型的(LLM)代理在最近取得了令人鼓舞的性能,但它们仍然存在几个局限性。例如,LLM的输出是一个描述性的句子,当确定具体行动时,这个输出是模糊的。为了应对这些局限性,我们引入了大型自回归模型(LARM)。LARM利用文本和多视角图像作为输入,以自回归的方式预测后续动作。为了训...
本文旨在增进我们对视觉语言模型(VLMs)如何处理敏感信息的理解,这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准PrivBench,包含8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,模型改进的领域仍然很大。基于这一观察结果,我们引入了PrivTune,一个新的指令调整数据集,旨在为VLMs提供关于视觉隐私的知识。通过...
3D物体检测的目标是恢复有关物体的3D信息,并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模,然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练,但3D点云数据的结构使物体和背景的组合变得容易,从而合成真实场景。为了提高检测模型的泛化能力,我们提出了一个基于难度的场景生成(HASS)方法,用于生成自适应的合成场景。我们为未...
我们提出了4D运动结构(MoSca),一种设计用于从随意捕捉的野外视频中的单目视频构建和合成动态场景的新颖视图的运动结构。为了解决这种具有挑战性和不收敛反问题,我们利用先验知识来自基础视觉模型,将视频数据提升为新运动结构(MoSca)表示,该表示能够简洁地且平滑地编码底层运动/变形。场景几何和外观随后与变形场分离,并通过全局融合Gauss分布锚定在MoSca上进行优化。此外,在动态渲染过程中,可以...
检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...