Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

read more..

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

由于需要与现实世界进行交互,具有实体代理需要具备全面的先验知识、长远的规划能力和快速的响应速度。尽管基于大型语言模型的(LLM)代理在最近取得了令人鼓舞的性能,但它们仍然存在几个局限性。例如,LLM的输出是一个描述性的句子,当确定具体行动时,这个输出是模糊的。为了应对这些局限性,我们引入了大型自回归模型(LARM)。LARM利用文本和多视角图像作为输入,以自回归的方式预测后续动作。为了训...

read more..

Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型(VLMs)如何处理敏感信息的理解,这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准PrivBench,包含8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,模型改进的领域仍然很大。基于这一观察结果,我们引入了PrivTune,一个新的指令调整数据集,旨在为VLMs提供关于视觉隐私的知识。通过...

read more..

MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

我们提出了4D运动结构(MoSca),一种设计用于从随意捕捉的野外视频中的单目视频构建和合成动态场景的新颖视图的运动结构。为了解决这种具有挑战性和不收敛反问题,我们利用先验知识来自基础视觉模型,将视频数据提升为新运动结构(MoSca)表示,该表示能够简洁地且平滑地编码底层运动/变形。场景几何和外观随后与变形场分离,并通过全局融合Gauss分布锚定在MoSca上进行优化。此外,在动态渲染过程中,可以...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning

$Q$-learning算法在现实应用中具有数据效率的优势,但由于训练时主要依赖于视觉观察,因此它们很容易过拟合和训练不稳定。先前的研究,如SVEA,发现仅在数据增强上进行有选择性的应用可以提高没有破坏训练的RL模型的视觉泛化。我们重新审视了其数据增强的食谱,并发现其效果局限于增加 photometric 类型的增强。为解决这些局限性,我们提出了一个通用的数据增强方法,SADA,它适用于更广泛的增强类型。我们...

read more..

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来,在视频生成方面的研究取得了巨大的进展,使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标,并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而,从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能,并应用于其他领域。我们介绍了一种合作视频扩散(CVD)方法作为实现这一...

read more..

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法,从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构,通过在视图、时间和空间维度上分解注意力,实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器,实现精确的条件的实现。为了训练这个模型,我们创建了一个多维数据集,包括图像、视频、多视角数...

read more..

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

我们提出了基于参考的调制(RB-Modulation)作为无训练的个人化扩散模型的新插件和即用解决方案。现有的无训练方法在(a)参考图像中提取风格时缺乏额外风格或内容文本描述的困难,(b)从参考风格图像中出现不需要的内容泄漏,以及(c)风格和内容的有效组合方面存在困难。RB-Modulation 基于一种新颖的随机最优控制器,其中风格描述符通过终端成本编码所需的属性。由此产生的漂移不仅克服了上述困难,而且确...

read more..