Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来,从鸟瞰视图(BEV)表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而,虽然这些方法在标准基准测试中都取得了令人印象深刻的结果,但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中,我们提出了RoboBEV,一个广泛的基准集,旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型,每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

read more..

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

read more..

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法,从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构,通过在视图、时间和空间维度上分解注意力,实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器,实现精确的条件的实现。为了训练这个模型,我们创建了一个多维数据集,包括图像、视频、多视角数...

read more..

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

在文档人工智能领域,半结构化形式解析起着关键作用。这项任务利用了来自关键信息提取(KIE)的技术,处理输入范围从纯文本到包含图像和结构布局的复杂模态数据。预训练多模态模型的出现推动了从不同格式文档中提取关键信息的工作。然而,形式解析的努力仍然受到一些显著挑战的限制,比如多语言解析能力不足和富含文本和视觉的上下文中的召回度降低。在这项工作中,我们介绍了一个简单但有效的多模态且多语...

read more..

Controllable Longer Image Animation with Diffusion Models

生成真实动画视频的计算机视觉领域是一个重要的研究课题。基于物理模拟和运动预测的方法已经取得了显著的进步,但它们通常局限于特定的物体纹理和运动轨迹,无法展示高度复杂的环境和物理 dynamics。在本文中,我们介绍了一种使用运动优先级和视频扩散模型进行开放领域的可控图像动画方法。我们的方法通过从视频中提取运动场信息来精确控制可移动区域的运动方向和速度,并学习运动轨迹和强度。当前的预训练...

read more..

Deep Feature Gaussian Processes for Single-Scene Aerosol Optical Depth Reconstruction

遥感数据提供了通过提取颗粒物光学深度(AOD)来通过低成本的大型规模监测空气污染的解决方案,但通常受到云层污染的限制。现有的AOD重建方法依赖于时间信息。然而,对于高空间分辨率的遥感数据,通常无法进行多时态观测。在本文中,我们利用卷积神经网络的深度表示学习提出Deep Feature Gaussian Processes(DFGP)用于单场景AOD重建。通过使用深度学习,我们将变量转换为具有更好可解释性的特征空间。通...

read more..

Gaussian Embedding of Temporal Networks

代表连续时间图的节点在低维潜在空间中的表示具有广泛的应用,从预测到可视化。然而,通过时间戳交互分析连续时间关系数据引入了独特的挑战,因为其稀疏性。仅仅将节点嵌入到潜在空间中忽略了这种稀疏性,强调了在潜在位置周围的不确定性量化。在本文中,我们提出了TGNE(时间图神经网络嵌入),一种创新的方法,连接了两篇不同文献的两个不同领域:通过潜在空间模型(LSM)对网络进行统计分析(Hoff2002)...

read more..

NeurTV: Total Variation on the Neural Domain

近年来,我们在许多图像应用中见证了total variation(TV)的成功。然而,传统的TV是在原始像素域定义的,这限制了它的潜力。在这项工作中,我们提出了一个新的人工神经网络(DNN)定义的TV。具体来说,离散数据通过深度神经网络(DNN)的非连续和隐含地表示,我们使用DNN输出w.r.t.输入坐标关于输入坐标的导数来捕捉数据的局部相关性。与原始域中的经典TV相比,所提出的神经域TV(称为NeurTV)具有两个优...

read more..

Diagnosing the Compositional Knowledge of Vision Language Models from a Game-Theoretic View

组合推理能力通常被认为是描述人类感知的基本技能。最近的研究表明,当前的视觉语言模型(VLMs)在组合推理能力方面缺乏足够的知识。为此,我们提出了彻底诊断VLMs编码的组合表示的方法,系统地揭示了导致这种弱点的潜在原因。具体来说,我们提出了一个全新的基于游戏理论的评估方法,以评估VLMs在组合理解的不同方面(如关系和属性)的脆弱性。大量实验结果证实了几个有关VLMs在组合推理能力方面的局限性...

read more..

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

视觉 grounded 是一种将用户提供的文本查询与图像中特定区域的查询相关联的基本工具。尽管在视觉 grounded 模型方面取得了进步,但它们理解和处理复杂查询的能力仍然有限。为了克服这一限制,我们引入了 LLM-Optic,一种创新的方法,它利用大型语言模型(LLMs)作为光透镜来增强现有的视觉 grounded 模型,以更好地理解涉及复杂文本结构和多个对象或对象空间关系等复杂查询的视觉 grounded 模型。LLM-Optic...

read more..