Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息,并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模,然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练,但3D点云数据的结构使物体和背景的组合变得容易,从而合成真实场景。为了提高检测模型的泛化能力,我们提出了一个基于难度的场景生成(HASS)方法,用于生成自适应的合成场景。我们为未...

read more..

All-day Depth Completion

我们提出了一种在不同的光照条件下进行深度估计的方法,包括白天和黑夜。由于在低光照条件下, photometry 是不准确的,因此我们通过多传感器融合方法来解决这个问题,其中我们输入一个额外的同步稀疏点云(即来自激光雷达)在图像平面上的投影作为一个稀疏深度图,以及一个相机图像。我们方法的关键在于利用丰富存在的模拟数据,首先通过学习从稀疏到(粗)密集深度图的映射来近似 3D 场景结构 – 我...

read more..

NeurTV: Total Variation on the Neural Domain

近年来,我们在许多图像应用中见证了total variation(TV)的成功。然而,传统的TV是在原始像素域定义的,这限制了它的潜力。在这项工作中,我们提出了一个新的人工神经网络(DNN)定义的TV。具体来说,离散数据通过深度神经网络(DNN)的非连续和隐含地表示,我们使用DNN输出w.r.t.输入坐标关于输入坐标的导数来捕捉数据的局部相关性。与原始域中的经典TV相比,所提出的神经域TV(称为NeurTV)具有两个优...

read more..

LCM: Locally Constrained Compact Point Cloud Model for Masked Point Modeling

基于Masked Point Modeling (MPM)的预训练点云模型已经在各种任务上取得了显著的改进。然而,这些模型严重依赖Transformer,导致quadratic复杂度,限制了它们的应用。为了应对这一限制,我们首先对现有的基于Transformer的MPM进行全面分析,强调冗余减少对点云分析至关重要。为此,我们提出了一个局部约束的紧凑点云模型(LCM),由一个局部约束的紧凑编码器和一个局部约束的Mamba基解码器组成。我们的编码...

read more..

SCaRL- A Synthetic Multi-Modal Dataset for Autonomous Driving

我们提出了一个新颖的合成多模态数据集SCaRL,以实现自动驾驶解决方案的训练和验证。多模态数据集在自动驾驶应用中至关重要,以实现自动驾驶系统的稳健性和高精度。由于基于深度学习的解决方案在物体检测、分类和跟踪任务中越来越普遍,对于自动驾驶来说,结合相机、激光雷达和雷达传感器的大数据集需求越来越大。然而,现有的自动驾驶数据集缺乏来自完整传感器套件的同步数据收集。SCaRL提供了来自红外的...

read more..

SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain

随着Gaussian Splats的出现,近年来努力主要集中在大规模场景几何重建。然而,大多数这些努力都集中在记忆减少或空间分割上,而忽略了语义空间中的信息。在本文中,我们提出了一个名为SA-GS的新方法,用于使用语义感知的3D Gaussian Splats进行细粒度3D几何重建。具体来说,我们利用大型视觉模型(如SAM和DINO)中存储的先前信息来生成语义掩码。然后,我们引入了一个几何复杂性度量函数作为软正则化,引导...

read more..

Clustering-based Learning for UAV Tracking and Pose Estimation

UAV跟踪和姿态估计在各种UAV相关任务中扮演着至关重要的角色,如编队控制和反UAV措施。准确在三维空间中检测和跟踪UAV仍然是一个尤其具有挑战性的问题,因为需要从不同的飞行环境中提取微UAV的稀疏特征,并持续匹配对应关系,尤其是在敏捷飞行中。通常,相机和激光雷达是用于在飞行中捕捉UAV轨迹的主要传感器类型。然而,这两种传感器在UAV分类和姿态估计方面都有局限性。本技术报告简要介绍了我们团队提出...

read more..

Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation

我们研究了在低保真度仿真器中部署强化学习(RL)策略进行约束人群导航的可行性。我们引入了一种表示动态环境的表示方法,将人类和障碍表示为分离的。人类通过检测到的状态来表示,而障碍则根据地图和机器人定位计算为点云。这种表示使在低保真度仿真器中训练的RL策略能够在真实世界中部署,并降低模拟与现实之间的差距。此外,我们提出了一个空间-时间图来建模代理和障碍之间的交互。基于该图,我们使用注...

read more..

3D Reconstruction with Fast Dipole Sums

我们提出了一种从多视角图像中重构高保真度表面的技术。我们的技术采用了一种新的基于点的表示方法,即电荷累积,它扩展了绕线数以允许在点云中用嘈杂或异常点进行任意点属性插值。利用电荷累积,我们可以将隐式几何和辐射场表示为点云的每个点的局部属性,这是我们从运动结构中初始化的。此外,我们还推导出加速前向和反向电荷累积查询的Barnes-Hut快速求和方案。这些查询使我们可以使用光线追踪有效地且...

read more..