标签： 3D

05 27,2024arXiv_AI

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义，这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格（如体素）作为场景表示，忽略了占有稀疏性和对象尺寸的多样性，从而导致资源分配的不平衡。为了解决这个问题，我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景，其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息，并迭代优化3D...

05 27,2024arXiv_CV

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型（LLMs）方面的进步在各种领域特别是概念推理方面已经得到了展示。然而，在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM，用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入，产生文本响应和分割掩码，从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说，我们提出了一个分层的掩码解码器，用于在广阔的场景中定位小...

05 27,2024arXiv_CV

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来，从鸟瞰视图（BEV）表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而，虽然这些方法在标准基准测试中都取得了令人印象深刻的结果，但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中，我们提出了RoboBEV，一个广泛的基准集，旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型，每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

05 27,2024arXiv_AI

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息，并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模，然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练，但3D点云数据的结构使物体和背景的组合变得容易，从而合成真实场景。为了提高检测模型的泛化能力，我们提出了一个基于难度的场景生成（HASS）方法，用于生成自适应的合成场景。我们为未...

05 27,2024arXiv_CV

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来，在视频生成方面的研究取得了巨大的进展，使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标，并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而，从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能，并应用于其他领域。我们介绍了一种合作视频扩散（CVD）方法作为实现这一...

05 27,2024arXiv_CV

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法，从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构，通过在视图、时间和空间维度上分解注意力，实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器，实现精确的条件的实现。为了训练这个模型，我们创建了一个多维数据集，包括图像、视频、多视角数...

05 27,2024arXiv_CV

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来，图卷积网络（GCNs）取得了显著进展，具有轻量级的架构，在图状数据集上实现了最先进的性能。在图结构数据背景下，利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而，该方法没有指定如何处理输入图中边缘缺失的情况。为此，我们提出了名为PerturbPE的新位置编码技术，它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

05 27,2024arXiv_CV

EASI-Tex: Edge-Aware Mesh Texturing from Single Image

我们提出了一种新的单图像网格纹理方法，该方法采用扩散模型，通过适当的条件处理，将一个对象的纹理从单个RGB图像平滑地传递到给定的3D网格对象。我们不假设这两个对象属于同一个类别，即使它们属于同一个类别，它们的几何和部件比例之间也可能存在显著的差异。我们的方法旨在通过使用通过ControlNet描述网格的边界的预训练Stable Diffusion生成器以及从输入图像中提取的特征，生成纹理，以尊重网格的底层...

05 27,2024arXiv_CV

Predict joint angle of body parts based on sequence pattern recognition

工作场所中器官的位置和移动可能会导致疼痛和身体伤害。因此， ergonomists 根据对工作场所的视觉观察进行人体工程学风险评估，或回顾在办公室拍摄的照片和视频。有时候照片中的工人并不完美。工作者的身体部分可能不在摄像机视野范围内，被物体遮挡，或者自包含，这就是二维人体姿势识别的主要问题。很难预测身体部分在不可见的图像中的位置，而几何数学方法并不完全适用于这个目的。因此，我们创建了一个...

05 27,2024arXiv_CV

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Refocusing,Defocus Rendering and Blur Removal

近年来，基于3D高斯平滑的技术已经 advanced 3D 场景建模和新的视图合成，实现了高品质的实时渲染。然而，这些方法在建模图像时固有地受到潜在的针孔相机假设的限制，因此仅适用于全焦（AiF）平滑的图像输入。这使得它们在现实场景中的应用受到严重影响，因为图像通常由于成像设备的有限景深（DOF）而出现 defocus 模糊。此外，现有的 3D 高斯平滑（3DGS）方法也不支持渲染景深效果。为了应对这些挑战，我...