Matryoshka Multimodal Models

大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...

read more..

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

read more..

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

由于需要与现实世界进行交互,具有实体代理需要具备全面的先验知识、长远的规划能力和快速的响应速度。尽管基于大型语言模型的(LLM)代理在最近取得了令人鼓舞的性能,但它们仍然存在几个局限性。例如,LLM的输出是一个描述性的句子,当确定具体行动时,这个输出是模糊的。为了应对这些局限性,我们引入了大型自回归模型(LARM)。LARM利用文本和多视角图像作为输入,以自回归的方式预测后续动作。为了训...

read more..

Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型(VLMs)如何处理敏感信息的理解,这些技术已经成为日常生活中不可或缺的一部分。为此,我们引入了一个新的基准PrivBench,包含8个敏感类别的图像,如护照或指纹。我们在这个基准上评估了10个最先进的VLMs,并观察到对隐私的理解普遍有限,模型改进的领域仍然很大。基于这一观察结果,我们引入了PrivTune,一个新的指令调整数据集,旨在为VLMs提供关于视觉隐私的知识。通过...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

THREAD: Thinking Deeper with Recursive Spawning

大语言模型(LLMs)在各种设置中表现出令人印象深刻的能力,但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战,我们提出了思考递归和动态生成(ThReaD)框架。将THREAD模型生成视为一个执行线程,根据上下文,可以运行到完成或动态地创建新的线程。通过创建新线程,可以将工作(例如,思考、获取信息)卸载到子线程,而子线程仅返回父线程执行工作所需的标记。实际上,这使得模型能够根据需要适...

read more..

The Expressive Capacity of State Space Models: A Formal Language Perspective

近年来,基于线性状态空间模型(SSMs)的循环模型已经在语言建模(LM)任务中显示出与Transformer相媲美的优异性能。然而,对于这种模型的原理能力,目前尚缺乏深入的理解,这可能有助于寻找更好的LM架构。我们对这类SSMs与Transformer以及传统RNN的比较进行了全面 theoretical 研究。我们发现,SSMs和Transformer具有重叠但独特的优势。在空心状态跟踪中,SSMs实现了Transformer无法完全表示的问题的直观...

read more..

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

推理能力对于大型语言模型(LLMs)至关重要,然而英语和非英语之间存在显著的差距。为了弥合这一差距,一些工作将LLMs微调以在非英语中重新学习推理能力,而另一些则用外部模型的输出(如英语翻译文本)替换非英语输入以绕过LLM理解非英语的挑战。然而,这些方法通常没有充分利用LLMs内置的推理和有用语言理解能力。为了更好地利用LLMs的推理和语言理解能力,我们提出了一个新的方法MindMerger,它将LLMs与...

read more..

Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective

我们提出了线性复杂性序列模型(LCSM),一种将各种序列建模技术团结在一个框架中的全面解决方案,包括线性注意、状态空间模型、长卷积和线性循环神经网络。该目标是通过从统一和简洁的角度分析每个组件的影响来增强对这些模型的理解。具体来说,我们将这些模型的建模过程分为三个不同的阶段:扩展、振荡和收缩(EOS),每个模型具有自己的特定设置。扩展阶段包括将输入信号投影到高维内存状态。接着是在振...

read more..