标签： Face - 第 2 页

05 27,2024arXiv_AI

FUGNN: Harmonizing Fairness and Utility in Graph Neural Networks

公平感知的图神经网络（GNNs）通常面临一个具有挑战性的权衡，即优先考虑公平性可能需要牺牲效用。在这项工作中，我们通过视图于谱图理论来重新审视公平性，旨在在谱图学习框架内调和公平性和效用。我们探讨了GNNs中敏感特征与频谱之间的关系，并通过理论分析界定了原始敏感特征与在不同频谱下卷积后的相似性。我们的分析揭示了当与最大幅值 eigenvalue 相关的特征向量具有方向性相似时，相似性的影响程度...

05 27,2024arXiv_RO

From Compliant to Rigid Contact Simulation: a Unified and Efficient Approach

无论是刚性还是柔性，接触交互是机器人运动固有的特性，使它们能够移动或操纵物体。接触交互是由复杂的物理现象产生的一种复杂的现象，在刚性或柔性点接触交互的背景下，可以用非线性相似性问题（NCPs）来数学表示。这类NCPs从优化和数值两个方面来看通常很难求解。在过去的几十年里，已经出现了许多专用的和针对性的接触求解器，如Bullet、Drake、MuJoCo和DART等现代机器人仿真器中。然而，大多数求解器往...

05 27,2024arXiv_AI

Position: Foundation Agents as the Paradigm Shift for Decision Making

决策制定需要感知、记忆和推理之间的复杂互动来确定最优策略。传统的决策方法面临着样本效率低和泛化能力差的问题。相比之下，语言和视觉基础模型已经展示了快速适应各种新任务的卓越表现。因此，我们主张将基础代理作为学习范式变革的一部分。这个建议是建立在大型语言模型（LLMs）成功的基础之上的，这些基础特征和挑战激励了LLMs的成功。此外，我们具体说明了基础代理从大型交互式数据收集或生成开始，...

05 27,2024arXiv_CV

DSU-Net: Dynamic Snake U-Net for 2-D Seismic First Break Picking

在地震勘探中，确定第一个断层（FB）是建立地下速度模型的重要组成部分。已经开发了各种基于深度神经网络的自动选择技术来加速这一过程。最受欢迎的类是使用语义分割网络在2维（2-D）拾取中进行选择。通常，2-D分割-based选择方法输入一张拾取图像，并输出一个二进制分割图，其中每行的最大值是断层的位置。然而，当前设计的分割网络很难确保分割的水平连续性。此外，在一些区域，断层跳跃也存在，而且目前...

05 27,2024arXiv_CV

Adversarial Attacks on Both Face Recognition and Face Anti-spoofing Models

针对人脸识别（FR）系统的对抗攻击已经证明在破坏纯FR模型方面非常有效。然而，对抗范例可能对完整的FR系统来说效果不佳，因为通常会集成Face Anti-Spoof（FAS）模型，这些模型可以检测到大量具有相同特征的对抗样本。为解决这个未被充分探索且关键的问题，我们提出了一个新颖的攻击场景，旨在同时攻击FR和FAS模型，以提高对FR系统实施对抗攻击的实践性。具体来说，我们引入了一种新的攻击方法，即Style-a...

05 27,2024arXiv_CV

PivotMesh: Generic 3D Mesh Generation via Pivot Vertices Guidance

生成紧凑且详细的三维网格是一个对现有三维生成模型的重要挑战。与从神经表示中提取密集网格不同，一些最近的工作尝试建模本体网格分布（即一系列三角形），这些方法产生的紧凑结果类似于人类手工制作的结果。然而，由于网格拓扑的复杂性和多样性，这些方法通常只能应用于小数据集，具有特定的类别，并且很难扩展。在本文中，我们引入了一个通用且可扩展的网格生成框架PivotMesh，它试图将本体网格生成扩展...

05 27,2024arXiv_CV

Part123: Part-aware 3D Reconstruction from a Single-view Image

近年来，扩散模型的出现为单视图重建提供了新的机会。然而，所有现有方法都将目标物体表示为一个封闭的网格，缺乏任何结构信息，从而忽略了基于部分结构的形状，这对许多下游应用至关重要。此外，生成的网格通常存在大噪声、不平稳的表面和模糊纹理，使得使用3D分割技术获得满意的分割部分变得具有挑战性。在本文中，我们提出了Part123，一种从单视图图像中进行部分感知3D复原的新框架。我们首先使用扩散模...

05 27,2024arXiv_AI

Scorch: A Library for Sparse Deep Learning

深度学习模型的规模快速增长，使得传统密集计算范式相形见绌。为了应对这一挑战，我们引入了Scorch，一个将高效的稀疏计算集成到PyTorch生态系统中的库，最初关注CPU上的推理工作负载。Scorch为稀疏向量提供了一个灵活且直观的接口，支持各种稀疏数据结构。Scorch引入了一个编译栈，自动优化关键优化，包括自动循环顺序、片元化和格式推断。与适应稀疏和密集数据的运行时相结合，Scorch在不需要牺牲可用性...

05 27,2024arXiv_AI

TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction

自回归下一个词预测是用于大型语言模型的标准预训练方法，但对于视觉任务，其应用受到图像数据非序列化性质的阻碍，导致累积错误。大多数视觉模型采用基于预训练的遮罩自动编码器（MAE）方法，面临可扩展性问题。为解决这些挑战，我们引入了\textbf{TokenUnify}，一种新颖的预训练方法，将随机词预测、下一个词预测和下一个所有词预测相结合。我们提供了理论证据，证明TokenUnify在视觉自回归中减轻了累积...

05 27,2024arXiv_CV

Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

视频生成模型因其生成真实和想象力的帧而受到特别关注。此外，这些模型还被观察到表现出强烈的3D一致性，显著增强其作为世界模拟器的潜力。在这项工作中，我们提出了Vidu4D，一种在准确还原单生成视频的4D（即序列3D）表示方面表现卓越的重建模型，解决了非刚性和平面扭曲带来的挑战。这种能力对于创建高保真度的虚拟内容至关重要，这些内容在保持空间和时间连续性同时保持真实感。Vidu4D的核心是我们提出...