AI论文 - 第 2 页 - 陪你看AI前沿

05 27,2024arXiv_CV

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此，自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近，多模态大型语言模型（MLLMs）在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理，我们引入了一种自校正（SC）MLLM，使我们的模型不仅能够预测末端执行器姿态，还具有自主识别并纠正失败动作的能力。具体来说，我们首...

05 27,2024arXiv_CV

A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning

$Q$-learning算法在现实应用中具有数据效率的优势，但由于训练时主要依赖于视觉观察，因此它们很容易过拟合和训练不稳定。先前的研究，如SVEA，发现仅在数据增强上进行有选择性的应用可以提高没有破坏训练的RL模型的视觉泛化。我们重新审视了其数据增强的食谱，并发现其效果局限于增加 photometric 类型的增强。为解决这些局限性，我们提出了一个通用的数据增强方法，SADA，它适用于更广泛的增强类型。我们...

05 27,2024arXiv_CV

Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

近年来，在视频生成方面的研究取得了巨大的进展，使得从文本提示或图像中生成高质量视频成为可能。向视频生成过程添加控制是一个重要的目标，并且最近基于相机轨迹条件的视频生成方法正在朝着这个目标迈进。然而，从多个不同的相机轨迹生成相同场景的视频仍然具有挑战性。解决这个多视频生成问题可以使大型规模的3D场景生成成为可能，并应用于其他领域。我们介绍了一种合作视频扩散（CVD）方法作为实现这一...

05 27,2024arXiv_AI

Enhancing Music Genre Classification through Multi-Algorithm Analysis and User-Friendly Visualization

本次研究的目的是教算法如何识别不同类型的音乐。用户将提交歌曲进行分析。由于算法之前没有听过这些歌曲，因此它需要决定每首歌的独特之处。它通过通过监督学习分解歌曲来学习节奏、旋律和音高，因为程序从已经标记的例子中学习。在分类音乐时，需要考虑的一个重要因素是音乐类型，这可能相当复杂。为了确保准确性，我们使用五种不同的算法，每个算法都独立工作，对歌曲进行分析。这有助于我们更全面地了...

05 27,2024arXiv_AI

Towards One Model for Classical Dimensionality Reduction: A Probabilistic Perspective on UMAP and t-SNE

这篇论文表明，维度降低方法UMAP和t-SNE可以近似地重新表述为概率分布模型引入的广义Wishart模型的MAP推理方法。这种解释为这些算法提供了更深刻的理论洞察，同时为类似维度降低方法的研究提供了工具。This paper shows that the dimensionality reduction methods, UMAP and t-SNE, can be approximately recast as MAP inference methods corresponding to a generalized Wishart-based model introduced...

05 27,2024arXiv_CV

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

我们提出了一种新的方法，从单个图像中生成高质量、空间时间上相互一致的人类视频。我们的框架将U-Net的准确条件注入和扩散变换器的全局关联优势相结合。核心是一个级联4D变换器架构，通过在视图、时间和空间维度上分解注意力，实现对4D空间的高效建模。通过注入人类身份、相机参数和时间信号到相应的变换器，实现精确的条件的实现。为了训练这个模型，我们创建了一个多维数据集，包括图像、视频、多视角数...

05 27,2024arXiv_AI

Spectral Greedy Coresets for Graph Neural Networks

大规模图在节点分类任务中的普遍性显著阻碍了图形神经网络（GNNs）在现实应用中的发展。节点抽样、图平滑和数据集收缩是提高数据效率的有效策略。然而，由于图节点之间的相互依赖关系，核心集选择，选择数据示例的子集，在大型图中加速GNN训练的效果尚未得到成功应用，需要特殊处理。本文研究了用于GNNs的图形核心集，通过基于其拓扑嵌入选择自顶图（即节点周围的子图）来避免相互依赖问题。我们将GNNs的核...

05 27,2024arXiv_AI

A Closer Look at Time Steps is Worthy of Triple Speed-Up for Diffusion Model Training

翻译：训练扩散模型总是计算密集型任务。在本文中，我们提出了一种新的加速扩散模型训练的方法，称为动态采样策略，它是基于对时间步的更仔细的观察。我们的关键发现是：i）可以根据过程增量将时间步分为加速、减速和收敛区域。ii）这些时间步是不平衡的，其中许多集中在收敛区域。iii）集中在收敛区域的步骤对扩散训练的收益有限。为了解决这个问题，我们设计了一个非对称采样策略，减少从收敛区域的步骤...

05 27,2024arXiv_CL

THREAD: Thinking Deeper with Recursive Spawning

大语言模型（LLMs）在各种设置中表现出令人印象深刻的能力，但在上下文长度和复杂性增加时仍然遇到困难。为解决这一挑战，我们提出了思考递归和动态生成（ThReaD）框架。将THREAD模型生成视为一个执行线程，根据上下文，可以运行到完成或动态地创建新的线程。通过创建新线程，可以将工作（例如，思考、获取信息）卸载到子线程，而子线程仅返回父线程执行工作所需的标记。实际上，这使得模型能够根据需要适...

05 27,2024arXiv_CV

RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control

我们提出了基于参考的调制（RB-Modulation）作为无训练的个人化扩散模型的新插件和即用解决方案。现有的无训练方法在（a）参考图像中提取风格时缺乏额外风格或内容文本描述的困难，(b)从参考风格图像中出现不需要的内容泄漏，以及(c)风格和内容的有效组合方面存在困难。RB-Modulation 基于一种新颖的随机最优控制器，其中风格描述符通过终端成本编码所需的属性。由此产生的漂移不仅克服了上述困难，而且确...