标签： Attention

05 27,2024arXiv_AI

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义，这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格（如体素）作为场景表示，忽略了占有稀疏性和对象尺寸的多样性，从而导致资源分配的不平衡。为了解决这个问题，我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景，其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息，并迭代优化3D...

05 27,2024arXiv_AI

NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models

Decoder-only large language model (LLM)-based embedding models are beginning to outperform BERT or T5-based embedding models in general-purpose text embedding tasks, including dense vector-based retrieval. In this work, we introduce the NV-Embed model with a variety of architectural designs and training procedures to significantly enhance the performance of LLM as a versatil...

05 27,2024arXiv_CV

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来，在视频生成方面的研究取得了巨大的进展，使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标，并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而，从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能，并应用于其他领域。我们介绍了一种合作视频扩散（CVD）方法作为实现这一...

05 27,2024arXiv_CV

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法，从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构，通过在视图、时间和空间维度上分解注意力，实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器，实现精确的条件的实现。为了训练这个模型，我们创建了一个多维数据集，包括图像、视频、多视角数...

05 27,2024arXiv_CV

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

我们提出了基于参考的调制（RB-Modulation）作为无训练的个人化扩散模型的新插件和即用解决方案。现有的无训练方法在（a）参考图像中提取风格时缺乏额外风格或内容文本描述的困难，(b)从参考风格图像中出现不需要的内容泄漏，以及(c)风格和内容的有效组合方面存在困难。RB-Modulation 基于一种新颖的随机最优控制器，其中风格描述符通过终端成本编码所需的属性。由此产生的漂移不仅克服了上述困难，而且确...

05 27,2024arXiv_CL

Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective

我们提出了线性复杂性序列模型（LCSM），一种将各种序列建模技术团结在一个框架中的全面解决方案，包括线性注意、状态空间模型、长卷积和线性循环神经网络。该目标是通过从统一和简洁的角度分析每个组件的影响来增强对这些模型的理解。具体来说，我们将这些模型的建模过程分为三个不同的阶段：扩展、振荡和收缩（EOS），每个模型具有自己的特定设置。扩展阶段包括将输入信号投影到高维内存状态。接着是在振...

05 27,2024arXiv_CL

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型（LLMs）的非凡能力和易用性显著增加了社会风险（例如虚假新闻生成），因此有必要开发LLM生成的文本（LGT）检测方法来实现安全使用。然而，由于LLMs数量众多，检测LGTs非常具有挑战性，使得分别考虑每个LLM变得不切实际。因此，确定这些模型的共同特征至关重要。在本文中，我们关注到最近强大的LLM的一个共同特征，即对齐训练，即训练LLM以生成人类偏好的文本。我们的关键发现是，这些对齐的LLM...

05 27,2024arXiv_CL

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

我们提出了Lightning Attention，这是第一个在固定内存消耗下，保持对各种序列长度下训练速度不变的线性注意力实现。由于累积求和操作（cumsum）的问题，以前的线性注意力实现无法在随意设置下实现其理论优势。然而，通过使用不同的注意力计算策略来计算注意力的不同部分，这个问题可以有效解决。具体来说，我们将注意力计算分为内部块和外部块，并使用传统的注意力计算方法来计算内部块，使用线性注意力内...

05 27,2024arXiv_AI

DPN: Decoupling Partition and Navigation for Neural Solvers of Min-max Vehicle Routing Problems

最小最大车辆路由问题（min-max VRP）通过为几个路线分配多个路径，旨在最小化最长的路线长度。最近，基于强化学习（RL）的序列规划方法在解决效率和最优性方面表现出优势。然而，这些方法未能充分利用问题特定的性质进行学习表示，导致用于解码最优路线的特性效果较低。本文将min-max VRP的序列规划过程视为两个耦合的优化任务：不同路线的客户分割和每个路线的客户导航（即分割和导航）。为了有效地处理m...

05 27,2024arXiv_CV

GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping

从单个图像中生成新颖的观点仍然是一个具有挑战性的任务，由于3D场景的复杂性和现有多视图数据集中训练模型的多样性有限。最近，结合大规模文本到图像（T2I）模型与单目深度估计（MDE）相结合的研究表明，在处理野外图像方面取得了进展。在这些方法中，将输入视图几何变形为新观点，然后用T2I模型修复变形后的图像。然而，当将输入视图扭曲为新视角时，它们在处理嘈杂的深度图和丢失语义细节方面遇到困难。...