GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...

read more..

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

read more..

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息,并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模,然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练,但3D点云数据的结构使物体和背景的组合变得容易,从而合成真实场景。为了提高检测模型的泛化能力,我们提出了一个基于难度的场景生成(HASS)方法,用于生成自适应的合成场景。我们为未...

read more..

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来,在视频生成方面的研究取得了巨大的进展,使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标,并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而,从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能,并应用于其他领域。我们介绍了一种合作视频扩散(CVD)方法作为实现这一...

read more..

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法,从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构,通过在视图、时间和空间维度上分解注意力,实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器,实现精确的条件的实现。为了训练这个模型,我们创建了一个多维数据集,包括图像、视频、多视角数...

read more..

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来,图卷积网络(GCNs)取得了显著进展,具有轻量级的架构,在图状数据集上实现了最先进的性能。在图结构数据背景下,利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而,该方法没有指定如何处理输入图中边缘缺失的情况。为此,我们提出了名为PerturbPE的新位置编码技术,它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

read more..

EASI-Tex: Edge-Aware Mesh Texturing from Single Image

我们提出了一种新的单图像网格纹理方法,该方法采用扩散模型,通过适当的条件处理,将一个对象的纹理从单个RGB图像平滑地传递到给定的3D网格对象。我们不假设这两个对象属于同一个类别,即使它们属于同一个类别,它们的几何和部件比例之间也可能存在显著的差异。我们的方法旨在通过使用通过ControlNet描述网格的边界的预训练Stable Diffusion生成器以及从输入图像中提取的特征,生成纹理,以尊重网格的底层...

read more..

Predict joint angle of body parts based on sequence pattern recognition

工作场所中器官的位置和移动可能会导致疼痛和身体伤害。因此, ergonomists 根据对工作场所的视觉观察进行人体工程学风险评估,或回顾在办公室拍摄的照片和视频。有时候照片中的工人并不完美。工作者的身体部分可能不在摄像机视野范围内,被物体遮挡,或者自包含,这就是二维人体姿势识别的主要问题。很难预测身体部分在不可见的图像中的位置,而几何数学方法并不完全适用于这个目的。因此,我们创建了一个...

read more..

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Refocusing,Defocus Rendering and Blur Removal

近年来,基于3D高斯平滑的技术已经 advanced 3D 场景建模和新的视图合成,实现了高品质的实时渲染。然而,这些方法在建模图像时固有地受到潜在的针孔相机假设的限制,因此仅适用于全焦(AiF)平滑的图像输入。这使得它们在现实场景中的应用受到严重影响,因为图像通常由于成像设备的有限景深(DOF)而出现 defocus 模糊。此外,现有的 3D 高斯平滑(3DGS)方法也不支持渲染景深效果。为了应对这些挑战,我...

read more..