Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型(VLMs)如何处理敏感信息的理解,这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准PrivBench,包含8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,模型改进的领域仍然很大。基于这一观察结果,我们引入了PrivTune,一个新的指令调整数据集,旨在为VLMs提供关于视觉隐私的知识。通过...

read more..

Evaluating Text-to-Visual Generation with Image-to-Text Generation

尽管在生成式 AI方面取得了显著的进展,但全面评估仍然具有挑战性,原因在于缺乏有效的指标和标准化的基准。例如,广泛使用的 CLIPScore 测量了生成图像与文本提示之间的对齐程度,但它无法产生关于包含物体、属性和关系等复杂提示的可靠分数。一个原因是 CLIP 的文本编码器经常被视为一个“单词集合”,将诸如“马正在吃草”这样的提示与“草正在吃马”这样的提示混淆。为了解决这个问题,我们引入了 VQAScore,...

read more..

Detect2Interact: Localizing Object Key Field in Visual Question Answering with LLMs

本地化在增强VQA系统的实用性和精确性方面发挥着关键作用。通过使系统能够精细地识别并交互特定物体部分,它显著提高了系统在动态环境(如机器人学和增强现实)中提供相关且准确响应的能力。然而,传统系统在准确地将图像中的物体映射到生成细微和空间感知响应方面面临挑战。在这项工作中,我们引入了“Detect2Interact”,通过引入一种高级的细粒度物体视觉关键词检测方法来解决这些挑战。首先,我们使用 se...

read more..

Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning

生成式视觉语言模型(VLMs)在零散射击视觉语言任务(如图像标题和视觉问题回答)中表现出色。然而,提高它们的零散射击推理通常需要第二阶段指令调整,这依赖于人类标注或大型语言模型生成的标注,导致高标注成本。为了解决这个问题,我们引入了 Image-Conditioned Caption Correction(ICCC)这一新颖的预训练任务,旨在在不需要标注任务感知数据的情况下增强VLMs的零散射击性能。ICCC 任务要求VLMs修复...

read more..

M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models

医学图像分析对于临床诊断和治疗至关重要,而多模态大型语言模型(MLLMs)正越来越多地支持这一领域。然而,之前的研究主要集中在2D医学图像上,尽管3D图像具有更丰富的空间信息,但仍未得到充分探索。本文旨在通过MLLMs促进3D医学图像分析的进步。为此,我们提出了一个大规模3D多模态医疗数据集M3D-Data,包括120K图像-文本对和662K针对各种3D医疗任务的指令-回复对。此外,我们还提出了M3D-LaMed,一种用...

read more..

Learned Scanpaths Aid Blind Panoramic Video Quality Assessment

全景视频具有提供沉浸式和交互式观看体验的优势。然而,其球形特性导致各种不确定的用户观看行为,这给全景视频质量评估(PVQA)带来了重大挑战。在本文中,我们提出了一种端到端优化的盲 PVQA方法,通过视觉扫描路径明确建模用户观看模式。我们的方法包括两个模块:扫描路径生成器和质量评估器。扫描路径生成器最初通过最小化预期代码长度来预测未来的扫描路径,然后与质量评估器共同优化质量预测。我们的盲 PVQA...

read more..

Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

本文为 Vision Language Models (VLMs) 提出了一个新颖且重要的挑战,称为无解问题检测(UPD)。UPD 研究了 VLM 在面对无法解决的问题时是否能够隐瞒答案,这在视觉问答任务(VQA)中具有背景。UPD 包括三个不同的设置:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。为了深入研究 UPD 问题,进行了大量实验,包括使用 GPT-4V 和 LLaVA-Next-34B 等大多数 VLMs,在很大程度上无法达到我们的...

read more..

H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

通用大型 Vision-Language 模型(VLMs)正在快速发展,但在遥感(RS)领域表现不佳,这是由于 RS 图像的独特和专用性质以及当前 VLMs 相对有限的二维感知能力。现有的 RS 特定 Vision 语言模型(RSVLMs)仍然具有显著的改进潜力,主要得益于大型、高质量 RS 视觉语言数据集的缺乏。我们构建了 HqDC-1.4M,大规模高质量和详细捕捉 RS 图像的模型,包含 1.4 万个图像-文本对,不仅提高了 RSVLM 对 RS 图像的...

read more..

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving

视觉语言模型(VLMs)和多模态语言模型(MMLMs)在自动驾驶研究中取得了突出地位,因为这些模型可以使用交通场景图像和其他数据模态为端到端自动驾驶安全任务提供可解释的文本推理和响应。然而,目前这些系统使用昂贵的大型语言模型(LLM)后端和图像编码器,使得这些系统不适合存在紧密的内存限制和需要快速推理时间的实时自动驾驶系统。为了解决这些问题,我们开发了EM-VLM4AD,一种高效、轻量、多帧视觉...

read more..

Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving

视觉语言模型(VLMs)和多模态语言模型(MMLMs)在自动驾驶研究中取得了突出地位,因为这些模型可以使用交通场景图像和其他数据模态为端到端自动驾驶安全任务提供可解释的文本推理和响应。然而,目前这些系统使用昂贵的大型语言模型(LLM)后端和图像编码器,使得这些系统不适合存在紧密的内存限制和需要快速推理时间的实时自动驾驶系统。为了解决这些问题,我们开发了EM-VLM4AD,一种高效、轻量、多帧视觉...

read more..