Matryoshka Multimodal Models

大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...

read more..

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...

read more..

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

read more..

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息,并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模,然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练,但3D点云数据的结构使物体和背景的组合变得容易,从而合成真实场景。为了提高检测模型的泛化能力,我们提出了一个基于难度的场景生成(HASS)方法,用于生成自适应的合成场景。我们为未...

read more..

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

read more..

Enhancing Music Genre Classification through Multi-Algorithm Analysis and User-Friendly Visualization

本次研究的目的是教算法如何识别不同类型的音乐。用户将提交歌曲进行分析。由于算法之前没有听过这些歌曲,因此它需要决定每首歌的独特之处。它通过通过监督学习分解歌曲来学习节奏、旋律和音高,因为程序从已经标记的例子中学习。在分类音乐时,需要考虑的一个重要因素是音乐类型,这可能相当复杂。为了确保准确性,我们使用五种不同的算法,每个算法都独立工作,对歌曲进行分析。这有助于我们更全面地了...

read more..

Towards One Model for Classical Dimensionality Reduction: A Probabilistic Perspective on UMAP and t-SNE

这篇论文表明,维度降低方法UMAP和t-SNE可以近似地重新表述为概率分布模型引入的广义Wishart模型的MAP推理方法。这种解释为这些算法提供了更深刻的理论洞察,同时为类似维度降低方法的研究提供了工具。This paper shows that the dimensionality reduction methods, UMAP and t-SNE, can be approximately recast as MAP inference methods corresponding to a generalized Wishart-based model introduced...

read more..

Spectral Greedy Coresets for Graph Neural Networks

大规模图在节点分类任务中的普遍性显著阻碍了图形神经网络(GNNs)在现实应用中的发展。节点抽样、图平滑和数据集收缩是提高数据效率的有效策略。然而,由于图节点之间的相互依赖关系,核心集选择,选择数据示例的子集,在大型图中加速GNN训练的效果尚未得到成功应用,需要特殊处理。本文研究了用于GNNs的图形核心集,通过基于其拓扑嵌入选择自顶图(即节点周围的子图)来避免相互依赖问题。我们将GNNs的核...

read more..

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

翻译:训练扩散模型总是计算密集型任务。在本文中,我们提出了一种新的加速扩散模型训练的方法,称为动态采样策略,它是基于对时间步的更仔细的观察。我们的关键发现是:i)可以根据过程增量将时间步分为加速、减速和收敛区域。ii)这些时间步是不平衡的,其中许多集中在收敛区域。iii)集中在收敛区域的步骤对扩散训练的收益有限。为了解决这个问题,我们设计了一个非对称采样策略,减少从收敛区域的步骤...

read more..

Transformers Can Do Arithmetic with the Right Embeddings

转换器在算术任务上的表现似乎很大程度上源于它们无法跟踪每个数字在大量数字中的确切位置。我们通过为每个数字添加一个编码其相对数字开始位置的嵌入来解决这个问题。除了这些嵌入为自己提供的提升外,我们证明了这个修复方法使得架构修改(如输入注入和循环层)进一步改善性能。有了位置解决,我们可以研究 transformer 的逻辑扩展能力。它们能否解决比训练数据中更大的和更复杂的算术问题?我们发现在仅...

read more..