标签： Transformer

05 27,2024arXiv_CV

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来，从鸟瞰视图（BEV）表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而，虽然这些方法在标准基准测试中都取得了令人印象深刻的结果，但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中，我们提出了RoboBEV，一个广泛的基准集，旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型，每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

05 27,2024arXiv_CV

Privacy-Aware Visual Language Models

本文旨在增进我们对视觉语言模型（VLMs）如何处理敏感信息的理解，这些技术已经成为日常生活中不可或缺的一部分。为此，我们引入了一个新的基准PrivBench，包含8个敏感类别的图像，如护照或指纹。我们在这个基准上评估了10个最先进的VLMs，并观察到对隐私的理解普遍有限，模型改进的领域仍然很大。基于这一观察结果，我们引入了PrivTune，一个新的指令调整数据集，旨在为VLMs提供关于视觉隐私的知识。通过...

05 27,2024arXiv_CV

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法，从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构，通过在视图、时间和空间维度上分解注意力，实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器，实现精确的条件的实现。为了训练这个模型，我们创建了一个多维数据集，包括图像、视频、多视角数...

05 27,2024arXiv_AI

Spectral Greedy Coresets for Graph Neural Networks

大规模图在节点分类任务中的普遍性显著阻碍了图形神经网络（GNNs）在现实应用中的发展。节点抽样、图平滑和数据集收缩是提高数据效率的有效策略。然而，由于图节点之间的相互依赖关系，核心集选择，选择数据示例的子集，在大型图中加速GNN训练的效果尚未得到成功应用，需要特殊处理。本文研究了用于GNNs的图形核心集，通过基于其拓扑嵌入选择自顶图（即节点周围的子图）来避免相互依赖问题。我们将GNNs的核...

05 27,2024arXiv_CL

THREAD: Thinking Deeper with Recursive Spawning

大语言模型（LLMs）在各种设置中表现出令人印象深刻的能力，但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战，我们提出了思考递归和动态生成（ThReaD）框架。将THREAD模型生成视为一个执行线程，根据上下文，可以运行到完成或动态地创建新的线程。通过创建新线程，可以将工作（例如，思考、获取信息）卸载到子线程，而子线程仅返回父线程执行工作所需的标记。实际上，这使得模型能够根据需要适...

05 27,2024arXiv_AI

Transformers Can Do Arithmetic with the Right Embeddings

转换器在算术任务上的表现似乎很大程度上源于它们无法跟踪每个数字在大量数字中的确切位置。我们通过为每个数字添加一个编码其相对数字开始位置的嵌入来解决这个问题。除了这些嵌入为自己提供的提升外，我们证明了这个修复方法使得架构修改（如输入注入和循环层）进一步改善性能。有了位置解决，我们可以研究 transformer 的逻辑扩展能力。它们能否解决比训练数据中更大的和更复杂的算术问题？我们发现在仅...

05 27,2024arXiv_CL

The Expressive Capacity of State Space Models: A Formal Language Perspective

近年来，基于线性状态空间模型（SSMs）的循环模型已经在语言建模（LM）任务中显示出与Transformer相媲美的优异性能。然而，对于这种模型的原理能力，目前尚缺乏深入的理解，这可能有助于寻找更好的LM架构。我们对这类SSMs与Transformer以及传统RNN的比较进行了全面 theoretical 研究。我们发现，SSMs和Transformer具有重叠但独特的优势。在空心状态跟踪中，SSMs实现了Transformer无法完全表示的问题的直观...

05 27,2024arXiv_CL

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

我们提出了Lightning Attention，这是第一个在固定内存消耗下，保持对各种序列长度下训练速度不变的线性注意力实现。由于累积求和操作（cumsum）的问题，以前的线性注意力实现无法在随意设置下实现其理论优势。然而，通过使用不同的注意力计算策略来计算注意力的不同部分，这个问题可以有效解决。具体来说，我们将注意力计算分为内部块和外部块，并使用传统的注意力计算方法来计算内部块，使用线性注意力内...

05 27,2024arXiv_AI

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

模拟真实交通代理之间的互动对验证自动驾驶系统的安全性至关重要。现有的领导模拟器主要使用编码器-解码器结构来编码未来模拟的历史轨迹。然而，这种范式会复杂化模型架构，而手动分离历史和未来轨迹会导致数据利用率低下。为了应对这些挑战，我们提出了Behavior Generative Pre-trained Transformers（BehaviorGPT），一种仅使用解码器的自回归架构，旨在模拟多个代理的序列运动。至关重要的是，我们的方...

05 27,2024arXiv_CL

A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness

这篇论文揭示了一个关键见解，即一层解码器-仅Transformer与两层循环神经网络（RNN）是等价的。在此基础上，我们提出了ARC-Tran，一种验证解码器-仅Transformer对任意扰动空间鲁棒性的新方法。与ARC-Tran相比，现有的鲁棒性验证技术要么局限于特定的长 preserving 扰动，如词替换，要么局限于递归模型，如LSTM。通过谨慎管理位置编码以防止匹配错误，并利用我们的关键见解实现精确和可扩展的验证，ARC-Tran...