Matryoshka Multimodal Models

大规模多模态模型(LMMs)如LLaVA在视觉推理方面表现出的性能非常出色。这些模型首先将图像嵌入到固定数量的大规模视觉令牌中,然后将它们输入到大语言模型(LLM)中。然而,这种设计导致在密集视觉场景(如高分辨率图像和视频)中,令牌数量过多,导致效率低下。虽然存在令牌剪枝/合并方法,但它们仅生产每个图像单条长度输出,并不能在信息密度与效率之间进行灵活权衡。受到Matryoshka Dolls的概念启发,...

read more..

Towards One Model for Classical Dimensionality Reduction: A Probabilistic Perspective on UMAP and t-SNE

这篇论文表明,维度降低方法UMAP和t-SNE可以近似地重新表述为概率分布模型引入的广义Wishart模型的MAP推理方法。这种解释为这些算法提供了更深刻的理论洞察,同时为类似维度降低方法的研究提供了工具。This paper shows that the dimensionality reduction methods, UMAP and t-SNE, can be approximately recast as MAP inference methods corresponding to a generalized Wishart-based model introduced...

read more..

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

在文档人工智能领域,半结构化形式解析起着关键作用。这项任务利用了来自关键信息提取(KIE)的技术,处理输入范围从纯文本到包含图像和结构布局的复杂模态数据。预训练多模态模型的出现推动了从不同格式文档中提取关键信息的工作。然而,形式解析的努力仍然受到一些显著挑战的限制,比如多语言解析能力不足和富含文本和视觉的上下文中的召回度降低。在这项工作中,我们介绍了一个简单但有效的多模态且多语...

read more..

Tracking Small Birds by Detection Candidate Region Filtering and Detection History-aware Association

本论文重点关注在全景视频中出现的小鸟的跟踪。当跟踪对象的尺寸在图像中很小(小对象跟踪)且移动迅速时,目标检测和关联会受到损害。为解决这些问题,我们提出了自适应切片辅助高强度交互(Adaptive SAHI)和检测历史感知相似度标准(DHSC)来减少检测应用的候选区域数量,并准确地将对象在连续帧中关联起来。在NUBird2022数据集上的实验证实了所提出方法的有效性,通过提高准确性和速度来证明了其有效性...

read more..

All-day Depth Completion

我们提出了一种在不同的光照条件下进行深度估计的方法,包括白天和黑夜。由于在低光照条件下, photometry 是不准确的,因此我们通过多传感器融合方法来解决这个问题,其中我们输入一个额外的同步稀疏点云(即来自激光雷达)在图像平面上的投影作为一个稀疏深度图,以及一个相机图像。我们方法的关键在于利用丰富存在的模拟数据,首先通过学习从稀疏到(粗)密集深度图的映射来近似 3D 场景结构 – 我...

read more..

Does Diffusion Beat GAN in Image Super Resolution?

近期文献中普遍认为,基于扩散的模型在图像超分辨率(ISR)问题上的表现优于基于生成对抗网络(GAN)的模型。然而,在大多数研究中,基于扩散的ISR模型训练时间更长,使用的网络规模也更大。这引发了这样一个问题:扩散模型的优越性是否是因为扩散范式更适合ISR任务,还是因为当代研究增加了规模和计算资源?在我们的一项工作中,我们将在受控设置中比较基于扩散和基于生成对抗网络的ISR模型,两种方法在架...

read more..

Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference

Transformer-based models have unlock a plethora of powerful intelligent applications at the edge, such as voice assistant in smart homes. Traditional deployment approaches offload the inference workloads to the remote cloud server, which would cause substantial pressure on the backbone network and raise users’ privacy concerns. To address this, in-situ inference has be...

read more..

Spectral regularization for adversarially-robust representation learning

神经网络分类器的漏洞对其在关键应用领域的部署构成了一个主要障碍。在训练过程中对网络参数进行常规化可以提高对抗性鲁棒性和泛化性能。通常,网络是从端到端进行常规化的,所有层受到参数化。然而,在学习和表示是关键设置中,例如自监督学习(SSL),在推理过程中会丢弃层。为了这些模型,在特征空间上进行常规化更为合适。为此,我们提出了一个新的表示学习 spectral regularizer,它鼓励在下游分类任...

read more..

PatchScaler: An Efficient Patch-independent Diffusion Model for Super-Resolution

扩散模型通过其令人印象深刻的内容生成能力显著提高了超分辨率图像的质量。然而,巨大的计算成本限制了这些方法的适用范围。最近的努力探索了合理的加速推理以减少抽样步骤的数量,但每次步都全图执行仍然导致计算成本很高。本文介绍了基于补丁的扩散模型的单图像超分辨率(SR)方法,旨在提高推理过程的效率。所提出的方法基于一个观察,即不是所有图像补丁在重建高分辨率图像时都需要相同的抽样步骤。基...

read more..

Empowering Character-level Text Infilling by Eliminating Sub-Tokens

在填充任务中,子词通常会在前缀、中缀和后缀的边界处出现,表示完整的词被分成了两个部分。传统方法将重点放在在词级别上训练模型,导致在推理阶段,字符级别填充任务的性能往往不理想。另外,一些方法考虑了字符级别填充,但它们依赖于在推理过程中预测子词,然而,由于模型在子词上的表现不佳,这种策略在字符级别填充任务中削弱了能力。在本文中,我们引入了FIM-SE,它表示带有开始和结束字符约束的填...

read more..