Matryoshka Multimodal Models

大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...

read more..

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

read more..

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

近年来在多模态大型语言模型(LLMs)方面的进步在各种领域特别是概念推理方面已经得到了展示。然而,在理解3D环境中的应用仍然有限。本文介绍了一种名为Reason3D的新颖LLM,用于全面的3D理解。Reason3D接受点云数据和文本提示作为输入,产生文本响应和分割掩码,从而促进先进任务比如3D推理分割、层次搜索、表达性引用和详细掩码输出。具体来说,我们提出了一个分层的掩码解码器,用于在广阔的场景中定位小...

read more..

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

由于需要与现实世界进行交互,具有实体代理需要具备全面的先验知识、长远的规划能力和快速的响应速度。尽管基于大型语言模型的(LLM)代理在最近取得了令人鼓舞的性能,但它们仍然存在几个局限性。例如,LLM的输出是一个描述性的句子,当确定具体行动时,这个输出是模糊的。为了应对这些局限性,我们引入了大型自回归模型(LARM)。LARM利用文本和多视角图像作为输入,以自回归的方式预测后续动作。为了训...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

THREAD: Thinking Deeper with Recursive Spawning

大语言模型(LLMs)在各种设置中表现出令人印象深刻的能力,但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战,我们提出了思考递归和动态生成(ThReaD)框架。将THREAD模型生成视为一个执行线程,根据上下文,可以运行到完成或动态地创建新的线程。通过创建新线程,可以将工作(例如,思考、获取信息)卸载到子线程,而子线程仅返回父线程执行工作所需的标记。实际上,这使得模型能够根据需要适...

read more..

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

推理能力对于大型语言模型(LLMs)至关重要,然而英语和非英语之间存在显著的差距。为了弥合这一差距,一些工作将LLMs微调以在非英语中重新学习推理能力,而另一些则用外部模型的输出(如英语翻译文本)替换非英语输入以绕过LLM理解非英语的挑战。然而,这些方法通常没有充分利用LLMs内置的推理和有用语言理解能力。为了更好地利用LLMs的推理和语言理解能力,我们提出了一个新的方法MindMerger,它将LLMs与...

read more..

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型(LLMs)的非凡能力和易用性显著增加了社会风险(例如虚假新闻生成),因此有必要开发LLM生成的文本(LGT)检测方法来实现安全使用。然而,由于LLMs数量众多,检测LGTs非常具有挑战性,使得分别考虑每个LLM变得不切实际。因此,确定这些模型的共同特征至关重要。在本文中,我们关注到最近强大的LLM的一个共同特征,即对齐训练,即训练LLM以生成人类偏好的文本。我们的关键发现是,这些对齐的LLM...

read more..

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

我们提出了Lightning Attention,这是第一个在固定内存消耗下,保持对各种序列长度下训练速度不变的线性注意力实现。由于累积求和操作(cumsum)的问题,以前的线性注意力实现无法在随意设置下实现其理论优势。然而,通过使用不同的注意力计算策略来计算注意力的不同部分,这个问题可以有效解决。具体来说,我们将注意力计算分为内部块和外部块,并使用传统的注意力计算方法来计算内部块,使用线性注意力内...

read more..

Prompt Optimization with Human Feedback

大语言模型(LLMs)在各种任务中表现出了出色的性能。然而,LLM的性能很大程度上取决于输入提示,这导致了许多关于提示优化的最近工作。然而,以前的工作通常需要数值评分来评估每个提示的质量。不幸的是,当人类用户与黑色盒LLM交互时,获得这种评分通常是难以实现和不可靠的。相反,通常来说,从人类用户那里获得偏好反馈要容易得多,即向用户展示来自一对提示的响应,并询问用户哪一个更喜欢。因此,在...

read more..