Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

read more..

Memorize What Matters: Emergent Scene Decomposition from Multitraverse

人类天生会保留永久元素的记忆,而短暂的时刻通常会从记忆中溜走。这种选择性记忆对于机器人感知、定位和映射至关重要。为了赋予机器人这种能力,我们引入了3D高斯映射(3DGM),一种基于3D高斯膨胀的自我监督相机仅离线映射框架。3DGM将同一区域的多层RGB视频转换为高斯基环境地图,同时进行2D短暂物体分割。我们的关键观察是,在遍历过程中,环境保持一致,而对象经常发生变化。这使我们能够利用重复遍历...

read more..

Evaluation of Multi-task Uncertainties in Joint Semantic Segmentation and Monocular Depth Estimation

虽然已经提出了许多有前景的不确定性量化方法来解决深度神经网络中存在的诸如过度自信和缺乏可解释性等问题,但在联合语义分割和单目深度估计的背景下,还没有研究过如何量化预测的不确定性。 由于许多现实应用在本质上都是多模态的,因此具有从多任务学习中受益的潜力,这是当前文献中的一个巨大的空白。为此,我们进行了一系列全面实验,研究了多任务学习如何影响与单独解决这两个任务相比不确定性估计的...

read more..

Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

大语言模型(LLMs)在语言理解和生成方面表现出显著的能力。然而,我们还观察到,LLMs往往会对特定查询产生不准确的响应。这一缺陷可以追溯到LLMs必须经历的分词步骤,这是所有LLM固有的局限性。事实上,错误的分词是导致LLMs理解输入不准确的关键点,从而导致不满意的输出。为了证明LLMs的这一缺陷,我们构建了一个名为$\textbf{ADT(用于挑战LLM分词的 adversarial 数据集)》$的对抗性数据集,它利用了...

read more..

DSU-Net: Dynamic Snake U-Net for 2-D Seismic First Break Picking

在地震勘探中,确定第一个断层(FB)是建立地下速度模型的重要组成部分。已经开发了各种基于深度神经网络的自动选择技术来加速这一过程。最受欢迎的类是使用语义分割网络在2维(2-D)拾取中进行选择。通常,2-D分割-based选择方法输入一张拾取图像,并输出一个二进制分割图,其中每行的最大值是断层的位置。然而,当前设计的分割网络很难确保分割的水平连续性。此外,在一些区域,断层跳跃也存在,而且目前...

read more..

Collective Perception Datasets for Autonomous Driving: A Comprehensive Review

为了确保自动驾驶汽车在复杂的城市环境中安全运行,需要全面感知环境。然而,由于环境条件、传感器限制和遮挡等因素,从单一视角获得完整的感知是不可能的。为解决这个问题,众包感知是一种有效的技术。训练和评估众包感知方法需要真实的大型数据集。本文是对自动驾驶背景下众包感知数据集的首次全面技术审查。调查分析了现有的V2V和V2X数据集,根据不同的标准将它们分类。重点关注它们在开发连接式自动驾...

read more..

Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models

我们提出了一个基于预训练扩散模型的视频语义分割(VSS)的零样本方法。越来越多的研究方向试图利用扩散模型的深度理解来执行下游视觉任务。然而,大多数方法都主要关注与图像相关的任务,如语义匹配和分割,而较少关注视频任务,如VSS。理想情况下,扩散为基础的图像语义分割方法可以逐帧应用于视频。然而,我们发现由于视频数据中缺乏任何固有的时间信息,它们的性能相当差。因此,我们解决了这个问题,...

read more..

Part123: Part-aware 3D Reconstruction from a Single-view Image

近年来,扩散模型的出现为单视图重建提供了新的机会。然而,所有现有方法都将目标物体表示为一个封闭的网格,缺乏任何结构信息,从而忽略了基于部分结构的形状,这对许多下游应用至关重要。此外,生成的网格通常存在大噪声、不平稳的表面和模糊纹理,使得使用3D分割技术获得满意的分割部分变得具有挑战性。在本文中,我们提出了Part123,一种从单视图图像中进行部分感知3D复原的新框架。我们首先使用扩散模...

read more..

Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations

断开性和畸变是处理等角图像时必须面对的两个问题。在本文中,我们提出了一种使用教师-学生模型融合等角和球形表示的方法来估计单目全景图像的深度。与使用等角表示与立方体图表示或切线表示的现有方法不同,球形表示是一个更好的选择,因为球面的采样过程更均匀,并且能更有效地处理畸变。在这项处理中,我们开发了一种新颖的球形卷积核计算方法,用于从球形表示中提取特征,然后,利用Segmentation Featu...

read more..