GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction
3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...