标签： Pose - 第 2 页

05 27,2024arXiv_AI

Spectral Greedy Coresets for Graph Neural Networks

大规模图在节点分类任务中的普遍性显著阻碍了图形神经网络（GNNs）在现实应用中的发展。节点抽样、图平滑和数据集收缩是提高数据效率的有效策略。然而，由于图节点之间的相互依赖关系，核心集选择，选择数据示例的子集，在大型图中加速GNN训练的效果尚未得到成功应用，需要特殊处理。本文研究了用于GNNs的图形核心集，通过基于其拓扑嵌入选择自顶图（即节点周围的子图）来避免相互依赖问题。我们将GNNs的核...

05 27,2024arXiv_AI

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

翻译：训练扩散模型总是计算密集型任务。在本文中，我们提出了一种新的加速扩散模型训练的方法，称为动态采样策略，它是基于对时间步的更仔细的观察。我们的关键发现是：i）可以根据过程增量将时间步分为加速、减速和收敛区域。ii）这些时间步是不平衡的，其中许多集中在收敛区域。iii）集中在收敛区域的步骤对扩散训练的收益有限。为了解决这个问题，我们设计了一个非对称采样策略，减少从收敛区域的步骤...

05 27,2024arXiv_CL

THREAD: Thinking Deeper with Recursive Spawning

大语言模型（LLMs）在各种设置中表现出令人印象深刻的能力，但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战，我们提出了思考递归和动态生成（ThReaD）框架。将THREAD模型生成视为一个执行线程，根据上下文，可以运行到完成或动态地创建新的线程。通过创建新线程，可以将工作（例如，思考、获取信息）卸载到子线程，而子线程仅返回父线程执行工作所需的标记。实际上，这使得模型能够根据需要适...

05 27,2024arXiv_CV

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

我们提出了基于参考的调制（RB-Modulation）作为无训练的个人化扩散模型的新插件和即用解决方案。现有的无训练方法在（a）参考图像中提取风格时缺乏额外风格或内容文本描述的困难，(b)从参考风格图像中出现不需要的内容泄漏，以及(c)风格和内容的有效组合方面存在困难。RB-Modulation 基于一种新颖的随机最优控制器，其中风格描述符通过终端成本编码所需的属性。由此产生的漂移不仅克服了上述困难，而且确...

05 27,2024arXiv_AI

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

预测不同动作的结果是自动驾驶中至关重要的一点。然而，现有的驾驶世界模型在泛化到未见环境方面仍然存在局限性，对于关键细节的预测精度和动作可控制性存在一定问题。在本文中，我们提出了Vista，一个具有高保真度和多功能的可扩展驾驶世界模型。通过系统地诊断现有方法，我们引入了几个关键要素来解决这些局限性。为了准确预测高分辨率下的实时动态，我们提出了两种新的损失来促进学习移动实例和结构信息...

05 27,2024arXiv_CV

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来，图卷积网络（GCNs）取得了显著进展，具有轻量级的架构，在图状数据集上实现了最先进的性能。在图结构数据背景下，利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而，该方法没有指定如何处理输入图中边缘缺失的情况。为此，我们提出了名为PerturbPE的新位置编码技术，它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

05 27,2024arXiv_AI

MindMerger: Efficient Boosting LLM Reasoning in non-English Languages

推理能力对于大型语言模型（LLMs）至关重要，然而英语和非英语之间存在显著的差距。为了弥合这一差距，一些工作将LLMs微调以在非英语中重新学习推理能力，而另一些则用外部模型的输出（如英语翻译文本）替换非英语输入以绕过LLM理解非英语的挑战。然而，这些方法通常没有充分利用LLMs内置的推理和有用语言理解能力。为了更好地利用LLMs的推理和语言理解能力，我们提出了一个新的方法MindMerger，它将LLMs与...

05 27,2024arXiv_CL

ReMoDetect: Reward Models Recognize Aligned LLM’s Generations

大语言模型（LLMs）的非凡能力和易用性显著增加了社会风险（例如虚假新闻生成），因此有必要开发LLM生成的文本（LGT）检测方法来实现安全使用。然而，由于LLMs数量众多，检测LGTs非常具有挑战性，使得分别考虑每个LLM变得不切实际。因此，确定这些模型的共同特征至关重要。在本文中，我们关注到最近强大的LLM的一个共同特征，即对齐训练，即训练LLM以生成人类偏好的文本。我们的关键发现是，这些对齐的LLM...

05 27,2024arXiv_CL

Federating Dynamic Models using Early-Exit Architectures for Automatic Speech Recognition on Heterogeneous Clients

自动语音识别模型需要大量的语音录音进行训练。然而，收集这些数据通常很费力，并导致隐私问题。分散学习作为一种有效的去中心化技术，在保持数据在不同的客户端本地的同时，协作学习一个共享预测模型，已经得到了广泛应用。然而，客户端设备通常具有有限的计算和通信资源，导致大型模型的实际困难。此外，边缘设备的异质性使得为它们生成一个适用于所有设备的单模型是不可能的。与最近的文章不同，使用具...

05 27,2024arXiv_AI

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

模拟真实交通代理之间的互动对验证自动驾驶系统的安全性至关重要。现有的领导模拟器主要使用编码器-解码器结构来编码未来模拟的历史轨迹。然而，这种范式会复杂化模型架构，而手动分离历史和未来轨迹会导致数据利用率低下。为了应对这些挑战，我们提出了Behavior Generative Pre-trained Transformers（BehaviorGPT），一种仅使用解码器的自回归架构，旨在模拟多个代理的序列运动。至关重要的是，我们的方...