Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability
预测不同动作的结果是自动驾驶中至关重要的一点。然而,现有的驾驶世界模型在泛化到未见环境方面仍然存在局限性,对于关键细节的预测精度和动作可控制性存在一定问题。在本文中,我们提出了Vista,一个具有高保真度和多功能的可扩展驾驶世界模型。通过系统地诊断现有方法,我们引入了几个关键要素来解决这些局限性。为了准确预测高分辨率下的实时动态,我们提出了两种新的损失来促进学习移动实例和结构信息...