THREAD: Thinking Deeper with Recursive Spawning

大语言模型(LLMs)在各种设置中表现出令人印象深刻的能力,但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战,我们提出了思考递归和动态生成(ThReaD)框架。将THREAD模型生成视为一个执行线程,根据上下文,可以运行到完成或动态地创建新的线程。通过创建新线程,可以将工作(例如,思考、获取信息)卸载到子线程,而子线程仅返回父线程执行工作所需的标记。实际上,这使得模型能够根据需要适...

read more..

The Expressive Capacity of State Space Models: A Formal Language Perspective

近年来,基于线性状态空间模型(SSMs)的循环模型已经在语言建模(LM)任务中显示出与Transformer相媲美的优异性能。然而,对于这种模型的原理能力,目前尚缺乏深入的理解,这可能有助于寻找更好的LM架构。我们对这类SSMs与Transformer以及传统RNN的比较进行了全面 theoretical 研究。我们发现,SSMs和Transformer具有重叠但独特的优势。在空心状态跟踪中,SSMs实现了Transformer无法完全表示的问题的直观...

read more..

KSW: Khmer Stop Word based Dictionary for Keyword Extraction

本文介绍了KSW,一种针对 Khmer 的关键词提取方法,该方法利用了专门的停用词词典。由于 Khmer 语言自然语言处理资源的有限性,有效的关键词提取一直是一个重要的挑战。KSW 通过开发一个定制化的停用词词典并实施一种预处理方法来去除停用词,从而提高了关键词提取的准确性。我们的实验结果表明,与之前的方法相比,KSW 在准确性和相关性方面取得了显著的改进,这表明它有可能推动 Khmer 文本处理和信息检...

read more..

Unlocking the Secrets of Linear Complexity Sequence Model from A Unified Perspective

我们提出了线性复杂性序列模型(LCSM),一种将各种序列建模技术团结在一个框架中的全面解决方案,包括线性注意、状态空间模型、长卷积和线性循环神经网络。该目标是通过从统一和简洁的角度分析每个组件的影响来增强对这些模型的理解。具体来说,我们将这些模型的建模过程分为三个不同的阶段:扩展、振荡和收缩(EOS),每个模型具有自己的特定设置。扩展阶段包括将输入信号投影到高维内存状态。接着是在振...

read more..

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型(LLMs)的非凡能力和易用性显著增加了社会风险(例如虚假新闻生成),因此有必要开发LLM生成的文本(LGT)检测方法来实现安全使用。然而,由于LLMs数量众多,检测LGTs非常具有挑战性,使得分别考虑每个LLM变得不切实际。因此,确定这些模型的共同特征至关重要。在本文中,我们关注到最近强大的LLM的一个共同特征,即对齐训练,即训练LLM以生成人类偏好的文本。我们的关键发现是,这些对齐的LLM...

read more..

Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

我们提出了Lightning Attention,这是第一个在固定内存消耗下,保持对各种序列长度下训练速度不变的线性注意力实现。由于累积求和操作(cumsum)的问题,以前的线性注意力实现无法在随意设置下实现其理论优势。然而,通过使用不同的注意力计算策略来计算注意力的不同部分,这个问题可以有效解决。具体来说,我们将注意力计算分为内部块和外部块,并使用传统的注意力计算方法来计算内部块,使用线性注意力内...

read more..

Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients

自动语音识别模型需要大量的语音录音进行训练。然而,收集这些数据通常很费力,并导致隐私问题。分散学习作为一种有效的去中心化技术,在保持数据在不同的客户端本地的同时,协作学习一个共享预测模型,已经得到了广泛应用。然而,客户端设备通常具有有限的计算和通信资源,导致大型模型的实际困难。此外,边缘设备的异质性使得为它们生成一个适用于所有设备的单模型是不可能的。与最近的文章不同,使用具...

read more..

A One-Layer Decoder-Only Transformer is a Two-Layer RNN: With an Application to Certified Robustness

这篇论文揭示了一个关键见解,即一层解码器-仅Transformer与两层循环神经网络(RNN)是等价的。在此基础上,我们提出了ARC-Tran,一种验证解码器-仅Transformer对任意扰动空间鲁棒性的新方法。与ARC-Tran相比,现有的鲁棒性验证技术要么局限于特定的长 preserving 扰动,如词替换,要么局限于递归模型,如LSTM。通过谨慎管理位置编码以防止匹配错误,并利用我们的关键见解实现精确和可扩展的验证,ARC-Tran...

read more..

DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution

翻译:对大规模预训练模型的微调本质上是一个资源密集型任务。虽然它能够增强模型的能力,但同时也导致了相当数量的计算成本,对下游任务的实际应用造成了挑战。现有的参数高效的微调(PEFT)方法,如低秩适应(LoRA)依赖于绕过框架,忽略权重矩阵之间差别的参数预算需求,这可能导致微调效果不理想。为了解决这个问题,我们引入了动态低秩适应(DoRA)方法。DoRA将高秩LoRA层分解为结构化的单秩组件,使...

read more..

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

在文档人工智能领域,半结构化形式解析起着关键作用。这项任务利用了来自关键信息提取(KIE)的技术,处理输入范围从纯文本到包含图像和结构布局的复杂模态数据。预训练多模态模型的出现推动了从不同格式文档中提取关键信息的工作。然而,形式解析的努力仍然受到一些显著挑战的限制,比如多语言解析能力不足和富含文本和视觉的上下文中的召回度降低。在这项工作中,我们介绍了一个简单但有效的多模态且多语...

read more..