标签： Face

05 27,2024arXiv_AI

Rethinking Transformers in Solving POMDPs

本文研究了在现实场景中具有部分可观测性的环境中，序列决策算法（如强化学习）的有效性。我们详细研究了Transformer在部分可观测的马尔可夫决策过程（POMDPs）中的效果，并揭示了其理论局限性。我们发现，像Transformer这样在可观测性上挣扎的模型，将平凡语言（即Transformer无法建模的语言）归结为POMDP。这给Transformer在学习和理解POMDP特定归纳偏置带来了重大挑战，因为它们在其他模型（如RNNs）中...

05 27,2024arXiv_CV

Surface reconstruction of sampled textiles via Morse theory

在这项工作中，我们使用计算拓扑学工具研究服装的感知问题：从点云样本中识别它们的几何形状和位置，例如使用3D扫描仪。我们提出了一个基于直接拓扑研究采样纺织表面重建算法，可以通过莫尔斯函数获得其细胞分解。没有使用中间三角化或局部隐式方程，避免了重建引起的伪影。不需要对点样本的表面拓扑、密度或规则性进行先验知识。结果是将表面分割为莫尔斯细胞（即拓扑盘）的并集，适用于诸如滤波或独立网...

05 27,2024arXiv_CV

Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground Truth

缺乏指导模型训练的实际目标是一个主要的化妆迁移任务的问题。大多数现有方法通过生成伪真实（PGT）来解决这个问题。然而，生成的PGT通常是次优的，他们的不精确性最终会导致性能下降。为了减轻这个问题，在本文中，我们提出了一个新颖的内容风格解耦化妆迁移（CSD-MT）方法，该方法在纯粹的无监督方式下工作，从而消除了生成PGT的负面影响。具体来说，根据频率特征分析，我们假设面部图像的低频（LF）组件...

05 27,2024arXiv_CL

Collage is the New Writing: Exploring the Fragmentation of Text and User Interfaces in AI Tools

本论文提出了并探讨了拼贴（Collage）在AI写作工具设计中的概念，从荒诞文学出发，具有四个方面：1）在写作界面中拆分文本，2）对比声音（内容与命令），3）整合多个来源的素材（例如文本建议），4）从手动写作转向编辑和组合决策，如选择和排列片段。论文接着运用Collage作为分析透视来分析最近AI写作工具的用户界面设计，又把它当作一种鼓舞创新设计方向的力量。最后，一种批判性观点把历史上作家通过文...

05 27,2024arXiv_CV

SDL-MVS: View Space and Depth Deformable Learning Paradigm for Multi-View Stereo Reconstruction in Remote Sensing

基于遥感图像的多视角立体研究促进了大规模城市三维重建的发展。然而，遥感多视角图像数据在获取过程中存在遮挡和视差不均的问题，导致深度估计中的模糊细节问题。为解决上述问题，我们重新审视了多视角立体任务中的变形学习方法，并提出了基于视空间和深度变形学习（SDL-MVS）的新范式，旨在学习不同视图空间特征的变形交互，并使用变形建模深度范围和间隔以实现高精度的深度估计。具体来说，为了解决由遮...

05 27,2024arXiv_RO

Motion Primitives Planning For Center-Articulated Vehicles

在无结构地形中进行自主导航，包括森林和建筑区，由于错综复杂的障碍和未知的元素，面临着独特的挑战。由于缺乏预先存在的地图，这些场景迫使采用运动规划方法，将灵活性和效率相结合。关键的是，它还必须包括机器人的运动约束，以便更有效地通过复杂的环境进行导航。这项工作介绍了一种新型的规划方法——为中心刚性车辆（CAV）设计的运动规划方法，利用车载感知的运动原型。该方法从离线创建运动原型开始...

05 27,2024arXiv_CV

DINO-SD: Champion Solution for ICRA 2024 RoboDepth Challenge

环绕视场深度估计是一个关键的任务，旨在获取周围视图的深度图。它在自动驾驶、AR/VR和3D重构等现实场景中有很多应用。然而，由于大多数自动驾驶数据集都是在白天场景中收集的，这导致在分布式数据（OoD）面前，深度模型性能较差。虽然一些工作试图在OoD数据上提高深度模型的鲁棒性，但这些方法要么需要额外的训练数据，要么缺乏泛化能力。在本文中，我们介绍了一种名为DINO-SD的新环绕视场深度估计模型。...

05 27,2024arXiv_AI

Graph Neural Networks on Quantum Computers

图神经网络（GNNs）是一种在处理表示为图的结构数据时表现卓越的强大的机器学习模型，在社交网络分析和推荐系统等应用中取得了显著的性能。然而，传统的GNN在处理大规模图时面临可扩展性挑战。本文提出了一种将GNNs应用于量子计算机的方法，以可能解决这一挑战。我们设计了对三种经典GNN的量子算法：图卷积网络、图注意力网络和消息传递GNN。对简化图卷积（SGC）网络的量子实现的复杂性分析表明，与经典SGC...

05 27,2024arXiv_AI

Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models

先进的AI系统能够访问数百万篇研究论文，可能会激发出供人类单独构思之外的新研究想法。然而，这些AI生成的想法有多有趣，以及我们如何提高它们的质量呢？在这里，我们介绍了SciMuse，一种通过一个基于超过5800万篇科学论文的不断演变的知识图谱生成个性化研究想法的系统，该接口连接了GPT-4。我们与德国马克斯·普朗克学会的100多个研究小组负责人进行了大规模的人评估，他们根据想法的可信度对4000多个个...

05 27,2024arXiv_AI

Advancements in Tactile Hand Gesture Recognition for Enhanced Human-Machine Interaction

由于人们对增强直觉性的人机交互（HRI/HVI）越来越感兴趣，本研究旨在提出一个稳健的触觉手势识别系统。我们对由导电纺织品构建的大型区域触觉感知界面（触摸界面）进行了全面的评估，以评估不同手势识别方法。我们的评估涵盖了传统特征工程方法以及能够实时解释各种手势的当代深度学习技术，包括适应手的大小、运动速度、施加压力水平和交互点的各种变化。我们对各种方法的深入分析在领域内的人机交互中做...