MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds

我们提出了4D运动结构(MoSca),一种设计用于从随意捕捉的野外视频中的单目视频构建和合成动态场景的新颖视图的运动结构。为了解决这种具有挑战性和不收敛反问题,我们利用先验知识来自基础视觉模型,将视频数据提升为新运动结构(MoSca)表示,该表示能够简洁地且平滑地编码底层运动/变形。场景几何和外观随后与变形场分离,并通过全局融合Gauss分布锚定在MoSca上进行优化。此外,在动态渲染过程中,可以...

read more..

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来,图卷积网络(GCNs)取得了显著进展,具有轻量级的架构,在图状数据集上实现了最先进的性能。在图结构数据背景下,利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而,该方法没有指定如何处理输入图中边缘缺失的情况。为此,我们提出了名为PerturbPE的新位置编码技术,它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

read more..

$text{Di}^2text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation

连续扩散模型已经在解决单目3D人体姿态估计(HPE)固有不确定性和不确定性方面取得了有效性。尽管它们具有优势,但需要大的搜索空间以及相应的需求,使得这些模型容易产生不现实的生物力学姿势。在遮挡场景中,从2D图像中推断3D结构复杂性加剧,这一点尤为明显。为了应对这些限制,我们引入了离散扩散姿态($\text{Di}^2\text{Pose}$),一种专为遮挡3D HPE设计的全新框架,利用了离散扩散模型的优势。 具...

read more..

Clustering-based Learning for UAV Tracking and Pose Estimation

UAV跟踪和姿态估计在各种UAV相关任务中扮演着至关重要的角色,如编队控制和反UAV措施。准确在三维空间中检测和跟踪UAV仍然是一个尤其具有挑战性的问题,因为需要从不同的飞行环境中提取微UAV的稀疏特征,并持续匹配对应关系,尤其是在敏捷飞行中。通常,相机和激光雷达是用于在飞行中捕捉UAV轨迹的主要传感器类型。然而,这两种传感器在UAV分类和姿态估计方面都有局限性。本技术报告简要介绍了我们团队提出...

read more..

Multi-Modal UAV Detection, Classification and Tracking Algorithm — Technical Report for CVPR 2024 UG2 Challenge

此技术报告展示了在CVPR 2024 UAV Tracking和Pose-Estimation挑战中取得第一名的模型,该挑战在无人机检测、无人机类型分类和极端天气条件下进行2D/3D轨迹估计方面面临困难,包括立体视觉、各种激光雷达、雷达和音频阵列。利用这些信息,我们提出了一个多模态的无人机检测、分类和3D跟踪方法,实现准确的目标无人机分类和跟踪。我们提出了一个新颖的分类管道,包括序列融合、区域选择和关键帧选择。我们的...

read more..

3D Congealing: 3D-Aware Image Alignment in the Wild

我们提出了3D Congealing,一种新的问题,旨在解决2D图像中捕获语义相似对象的3D感知对齐问题。给定一系列未标记的互联网图像,我们的目标是将输入的语义部分与共享的3D共轭空间中的知识进行关联,并对2D图像进行聚合,以将知识传递到共享的3D共轭空间中。我们引入了一个不假设形状模板、姿态或任何相机参数的通用框架来解决这项任务。它的核心是一个共轭3D表示,包含了几何和语义信息。该框架与每个输入图...

read more..

SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation

我们提出了一个新的自监督方法SelfPose3d,用于从多个相机视角估计多个人的3D姿势。与当前的最先进的完全监督方法不同,我们的方法不需要任何2D或3D地面真实姿势,只需使用经过校准的相机设置的多个视角的多媒体输入图像和来自标准2D人体姿态估计算法的2D伪姿势。我们提出了两个自监督学习目标:自监督人在3D空间中的定位和自监督3D姿势估计。我们通过在合成生成3D点上训练模型,作为3D人的根位置,在所有...

read more..

Marrying NeRF with Feature Matching for One-step Pose Estimation

鉴于物体图像集合,我们的目标是构建一个基于实时的图像姿态估计方法,这不需要其CAD模型或几小时的物体特定训练。最近基于NeRF的方法通过直接从渲染和目标图像之间的像素损失优化姿态提供了有前途的解决方案。然而,在推理过程中,它们需要较长的时间收敛,并存在局部最小值,使得它们对于实时机器人应用不实用。我们通过将图像匹配与NeRF相结合来解决这个问题。通过NeRF生成的2D匹配和深度渲染,我们通过...

read more..

Graph-Based vs. Error State Kalman Filter-Based Fusion Of 5G And Inertial Data For MAV Indoor Pose Estimation

5G新无线时间到达(ToA)数据有可能彻底颠覆室内定位(MAVs)的方向。然而,在不同的网络设置下,尤其当与惯性测量单元(IMU)数据相结合进行实时定位时,其表现尚未完全被探索。在这项研究中,我们开发了一种误差状态卡尔曼滤波器(ESKF)和姿态图优化(PGO)方法来填补这一空白。我们系统地评估了所得到的方法在现实场景中5G无线站下的实时MAV定位的性能,证明了5G技术在這個领域具有巨大的潜力。为了通...

read more..

OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos

全景相机在各种应用中广泛使用,以提供广阔的视野。然而,由于不可避免地存在于其广角视野中的动态物体(包括摄影师)的存在,它们在合成新颖视角时面临挑战。在本文中,我们介绍了一种名为OmniLocalRF的新方法,可以将静态仅的场景视图同时消除和修复动态物体。我们的方法将局部辐射场原理与指向性光线双向优化相结合。我们的输入是一个全景视频,我们评估前后帧之间整个角度的相互观察。为了减少动态物体...

read more..