标签： Represenation_Learning

05 27,2024arXiv_AI

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

05 27,2024arXiv_CV

Deep Feature Gaussian Processes for Single-Scene Aerosol Optical Depth Reconstruction

遥感数据提供了通过提取颗粒物光学深度（AOD）来通过低成本的大型规模监测空气污染的解决方案，但通常受到云层污染的限制。现有的AOD重建方法依赖于时间信息。然而，对于高空间分辨率的遥感数据，通常无法进行多时态观测。在本文中，我们利用卷积神经网络的深度表示学习提出Deep Feature Gaussian Processes（DFGP）用于单场景AOD重建。通过使用深度学习，我们将变量转换为具有更好可解释性的特征空间。通...

05 27,2024arXiv_CV

Spectral regularization for adversarially-robust representation learning

神经网络分类器的漏洞对其在关键应用领域的部署构成了一个主要障碍。在训练过程中对网络参数进行常规化可以提高对抗性鲁棒性和泛化性能。通常，网络是从端到端进行常规化的，所有层受到参数化。然而，在学习和表示是关键设置中，例如自监督学习（SSL），在推理过程中会丢弃层。为了这些模型，在特征空间上进行常规化更为合适。为此，我们提出了一个新的表示学习 spectral regularizer，它鼓励在下游分类任...

05 27,2024arXiv_AI

Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling

对比性语言-图像预训练（CLIP）作为一种在图像表示学习方面突出的方法，各种架构，从视觉Transformer（ViTs）到卷积网络（ResNets）都已通过CLIP进行训练，以作为解决各种视觉任务的通用解决方案。本文探讨了各种CLIP训练的视觉骨干之间的差异。尽管使用相同的训练数据和目标，我们发现这些架构具有显著不同的表示，不同数据集上的分类性能，以及对某些类型图像扰动的鲁棒性属性。我们的研究结果表明，通过...

05 27,2024arXiv_AI

TAGA: Text-Attributed Graph Self-Supervised Learning by Synergizing Graph and Text Mutual Transformations

文本关联图（TAGs）通过自然语言描述增强图结构，从而详细表示数据及其在广泛场景中的关系。尽管具有更深层次的洞察力潜力，现有的TAG表示学习主要依赖于监督方法，需要大量标记数据，并限制了其在各种上下文中的应用。本文介绍了一种新的自监督学习框架，Text-And-Graph Multi-View Alignment (TAGA)，通过整合TAGs的结构和语义维度来克服这些限制。TAGA构建了两种互补视图：Text-of-Graph视图，根据图拓...

05 26,2024arXiv_AI

Scalable Numerical Embeddings for Multivariate Time Series: Enhancing Healthcare Data Representation Learning

多变量时间序列（MTS）数据在采样不规则和异步时，通常存在广泛的缺失值。传统MTS分析方法通常依赖于基于时间戳的时序嵌入，但这些嵌入值往往与实际值存在很大偏差，从而降低预测准确性。此外，这些方法通常无法为在训练集中不常见或甚至缺失的值提供稳健的初始嵌入，这给模型泛化带来了重大挑战。为了应对这些挑战，我们提出了SCAlable Numerical Embedding（SCANE），一种新框架，将每个特征值视为独立的...

05 26,2024arXiv_AI

SE3Set: Harnessing equivariant hypergraph neural networks for molecular representation learning

在本文中，我们开发了SE3Set，一种专为高级分子表示学习设计的SE(3)等价超图神经网络架构。超图不仅仅是传统图的扩展；它们对于建模高阶关系至关重要，这是由于传统等价图基方法在表示复杂多体相互作用方面固有的局限性所导致的。为了实现这一目标，我们首先通过提出一种新碎裂方法来构建超图。我们考虑了分子系统的化学和三维空间信息，然后设计SE3Set，将等价性引入到超图神经网络中。这确保了学习到的分...

05 26,2024arXiv_CV

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

Vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. 我们猜想，这种设计选择可能会限制模型从视觉数据中学习全面和组合表示的能力。本文探讨在视觉语言预训练框架中为Transformer编码器提供语义上有意义的视觉令牌的概念。通过利用现成的分割和场景图模型，我们提取了实例分割掩码（称为可感知令牌）的关系和动作（称为无形令牌）。...

05 25,2024arXiv_RO

RoboArm-NMP: a Learning Environment for Neural Motion Planning

我们介绍RoboArm-NMP，这是一个学习和评估环境，旨在简单而彻底地评估神经运动规划（NMP）算法，重点关注机器人操作器。基于Python的环境提供了学习控制策略（无论是基于监督还是基于强化学习的）的基线实现，基于PyBullet的模拟器，使用经典运动规划求解器解决问题的数据，以及各种表示学习方法来编码障碍。RoboArm-NMP使我们在学习规划和评估框架之间创建了干净的界面。使用RoboArm-NMP，我们比较了几个...

04 02,2024arXiv_CV

IISAN: Efficiently Adapting Multimodal Representation for Sequential Recommendation with Decoupled PEFT

多模态基础模型在序列推荐系统中具有变革性，利用强大的表示学习能力。虽然参数高效的微调（PEFT）通常用于适应推荐任务，但大多数研究优先考虑参数效率，往往忽视了GPU内存效率和训练速度等关键因素。为了填补这一空白，我们的论文引入了IISAN（内和外模态适应网络），一种简单可插拔的架构，利用分离的PEFT结构，并充分利用内模态和外模态适应。IISAN与完整微调（FFT）和最先进的PEFT的性能相匹敌。更重...