Transformers Can Do Arithmetic with the Right Embeddings

转换器在算术任务上的表现似乎很大程度上源于它们无法跟踪每个数字在大量数字中的确切位置。我们通过为每个数字添加一个编码其相对数字开始位置的嵌入来解决这个问题。除了这些嵌入为自己提供的提升外,我们证明了这个修复方法使得架构修改(如输入注入和循环层)进一步改善性能。有了位置解决,我们可以研究 transformer 的逻辑扩展能力。它们能否解决比训练数据中更大的和更复杂的算术问题?我们发现在仅...

read more..

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

预测不同动作的结果是自动驾驶中至关重要的一点。然而,现有的驾驶世界模型在泛化到未见环境方面仍然存在局限性,对于关键细节的预测精度和动作可控制性存在一定问题。在本文中,我们提出了Vista,一个具有高保真度和多功能的可扩展驾驶世界模型。通过系统地诊断现有方法,我们引入了几个关键要素来解决这些局限性。为了准确预测高分辨率下的实时动态,我们提出了两种新的损失来促进学习移动实例和结构信息...

read more..

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来,图卷积网络(GCNs)取得了显著进展,具有轻量级的架构,在图状数据集上实现了最先进的性能。在图结构数据背景下,利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而,该方法没有指定如何处理输入图中边缘缺失的情况。为此,我们提出了名为PerturbPE的新位置编码技术,它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

read more..

The Expressive Capacity of State Space Models: A Formal Language Perspective

近年来,基于线性状态空间模型(SSMs)的循环模型已经在语言建模(LM)任务中显示出与Transformer相媲美的优异性能。然而,对于这种模型的原理能力,目前尚缺乏深入的理解,这可能有助于寻找更好的LM架构。我们对这类SSMs与Transformer以及传统RNN的比较进行了全面 theoretical 研究。我们发现,SSMs和Transformer具有重叠但独特的优势。在空心状态跟踪中,SSMs实现了Transformer无法完全表示的问题的直观...

read more..

EASI-Tex: Edge-Aware Mesh Texturing from Single Image

我们提出了一种新的单图像网格纹理方法,该方法采用扩散模型,通过适当的条件处理,将一个对象的纹理从单个RGB图像平滑地传递到给定的3D网格对象。我们不假设这两个对象属于同一个类别,即使它们属于同一个类别,它们的几何和部件比例之间也可能存在显著的差异。我们的方法旨在通过使用通过ControlNet描述网格的边界的预训练Stable Diffusion生成器以及从输入图像中提取的特征,生成纹理,以尊重网格的底层...

read more..

KSW: Khmer Stop Word based Dictionary for Keyword Extraction

本文介绍了KSW,一种针对 Khmer 的关键词提取方法,该方法利用了专门的停用词词典。由于 Khmer 语言自然语言处理资源的有限性,有效的关键词提取一直是一个重要的挑战。KSW 通过开发一个定制化的停用词词典并实施一种预处理方法来去除停用词,从而提高了关键词提取的准确性。我们的实验结果表明,与之前的方法相比,KSW 在准确性和相关性方面取得了显著的改进,这表明它有可能推动 Khmer 文本处理和信息检...

read more..

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

推理能力对于大型语言模型(LLMs)至关重要,然而英语和非英语之间存在显著的差距。为了弥合这一差距,一些工作将LLMs微调以在非英语中重新学习推理能力,而另一些则用外部模型的输出(如英语翻译文本)替换非英语输入以绕过LLM理解非英语的挑战。然而,这些方法通常没有充分利用LLMs内置的推理和有用语言理解能力。为了更好地利用LLMs的推理和语言理解能力,我们提出了一个新的方法MindMerger,它将LLMs与...

read more..

Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective

我们提出了线性复杂性序列模型(LCSM),一种将各种序列建模技术团结在一个框架中的全面解决方案,包括线性注意、状态空间模型、长卷积和线性循环神经网络。该目标是通过从统一和简洁的角度分析每个组件的影响来增强对这些模型的理解。具体来说,我们将这些模型的建模过程分为三个不同的阶段:扩展、振荡和收缩(EOS),每个模型具有自己的特定设置。扩展阶段包括将输入信号投影到高维内存状态。接着是在振...

read more..

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型(LLMs)的非凡能力和易用性显著增加了社会风险(例如虚假新闻生成),因此有必要开发LLM生成的文本(LGT)检测方法来实现安全使用。然而,由于LLMs数量众多,检测LGTs非常具有挑战性,使得分别考虑每个LLM变得不切实际。因此,确定这些模型的共同特征至关重要。在本文中,我们关注到最近强大的LLM的一个共同特征,即对齐训练,即训练LLM以生成人类偏好的文本。我们的关键发现是,这些对齐的LLM...

read more..

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

我们提出了Lightning Attention,这是第一个在固定内存消耗下,保持对各种序列长度下训练速度不变的线性注意力实现。由于累积求和操作(cumsum)的问题,以前的线性注意力实现无法在随意设置下实现其理论优势。然而,通过使用不同的注意力计算策略来计算注意力的不同部分,这个问题可以有效解决。具体来说,我们将注意力计算分为内部块和外部块,并使用传统的注意力计算方法来计算内部块,使用线性注意力内...

read more..