Matryoshka Multimodal Models

大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...

read more..

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...

read more..

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

read more..

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息,并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模,然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练,但3D点云数据的结构使物体和背景的组合变得容易,从而合成真实场景。为了提高检测模型的泛化能力,我们提出了一个基于难度的场景生成(HASS)方法,用于生成自适应的合成场景。我们为未...

read more..

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

我们提出了4D运动结构(MoSca),一种设计用于从随意捕捉的野外视频中的单目视频构建和合成动态场景的新颖视图的运动结构。为了解决这种具有挑战性和不收敛反问题,我们利用先验知识来自基础视觉模型,将视频数据提升为新运动结构(MoSca)表示,该表示能够简洁地且平滑地编码底层运动/变形。场景几何和外观随后与变形场分离,并通过全局融合Gauss分布锚定在MoSca上进行优化。此外,在动态渲染过程中,可以...

read more..

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning

$Q$-learning算法在现实应用中具有数据效率的优势,但由于训练时主要依赖于视觉观察,因此它们很容易过拟合和训练不稳定。先前的研究,如SVEA,发现仅在数据增强上进行有选择性的应用可以提高没有破坏训练的RL模型的视觉泛化。我们重新审视了其数据增强的食谱,并发现其效果局限于增加 photometric 类型的增强。为解决这些局限性,我们提出了一个通用的数据增强方法,SADA,它适用于更广泛的增强类型。我们...

read more..

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来,在视频生成方面的研究取得了巨大的进展,使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标,并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而,从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能,并应用于其他领域。我们介绍了一种合作视频扩散(CVD)方法作为实现这一...

read more..