分类： arXiv_CV - 第 2 页

05 27,2024arXiv_CV

Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding

理解人类行为的基本依赖于准确的三维人体姿态估计。近年来，图卷积网络（GCNs）取得了显著进展，具有轻量级的架构，在图状数据集上实现了最先进的性能。在图结构数据背景下，利用图Laplacian矩阵的行列向量进行位置编码是有效的。然而，该方法没有指定如何处理输入图中边缘缺失的情况。为此，我们提出了名为PerturbPE的新位置编码技术，它从行向量中提取一致和规则的分量。我们的方法包括应用多个扰动并取...

05 27,2024arXiv_CV

EASI-Tex: Edge-Aware Mesh Texturing from Single Image

我们提出了一种新的单图像网格纹理方法，该方法采用扩散模型，通过适当的条件处理，将一个对象的纹理从单个RGB图像平滑地传递到给定的3D网格对象。我们不假设这两个对象属于同一个类别，即使它们属于同一个类别，它们的几何和部件比例之间也可能存在显著的差异。我们的方法旨在通过使用通过ControlNet描述网格的边界的预训练Stable Diffusion生成器以及从输入图像中提取的特征，生成纹理，以尊重网格的底层...

05 27,2024arXiv_CV

Predict joint angle of body parts based on sequence pattern recognition

工作场所中器官的位置和移动可能会导致疼痛和身体伤害。因此， ergonomists 根据对工作场所的视觉观察进行人体工程学风险评估，或回顾在办公室拍摄的照片和视频。有时候照片中的工人并不完美。工作者的身体部分可能不在摄像机视野范围内，被物体遮挡，或者自包含，这就是二维人体姿势识别的主要问题。很难预测身体部分在不可见的图像中的位置，而几何数学方法并不完全适用于这个目的。因此，我们创建了一个...

05 27,2024arXiv_CV

Fusing uncalibrated IMUs and handheld smartphone video to reconstruct knee kinematics

视频和可穿戴传感器数据提供了关于人类运动的互补信息。视频提供了对整个身体的全面了解，而可穿戴传感器则提供了对特定身体部位的高分辨率测量。通过融合这些模式并获得准确的生物力学运动学，将为临床评估和监测提供有很大的价值。虽然存在多种视频传感器融合方法，但大多数都假定已经进行了长时间且易碎的传感器-人体校准过程。在这项工作中，我们提出了一种结合手持智能手机视频和未校准可穿戴传感器数...

05 27,2024arXiv_CV

DOF-GS: Adjustable Depth-of-Field 3D Gaussian Splatting for Refocusing,Defocus Rendering and Blur Removal

近年来，基于3D高斯平滑的技术已经 advanced 3D 场景建模和新的视图合成，实现了高品质的实时渲染。然而，这些方法在建模图像时固有地受到潜在的针孔相机假设的限制，因此仅适用于全焦（AiF）平滑的图像输入。这使得它们在现实场景中的应用受到严重影响，因为图像通常由于成像设备的有限景深（DOF）而出现 defocus 模糊。此外，现有的 3D 高斯平滑（3DGS）方法也不支持渲染景深效果。为了应对这些挑战，我...

05 27,2024arXiv_CV

Tracking Small Birds by Detection Candidate Region Filtering and Detection History-aware Association

本论文重点关注在全景视频中出现的小鸟的跟踪。当跟踪对象的尺寸在图像中很小（小对象跟踪）且移动迅速时，目标检测和关联会受到损害。为解决这些问题，我们提出了自适应切片辅助高强度交互（Adaptive SAHI）和检测历史感知相似度标准（DHSC）来减少检测应用的候选区域数量，并准确地将对象在连续帧中关联起来。在NUBird2022数据集上的实验证实了所提出方法的有效性，通过提高准确性和速度来证明了其有效性...

05 27,2024arXiv_CV

All-day Depth Completion

我们提出了一种在不同的光照条件下进行深度估计的方法，包括白天和黑夜。由于在低光照条件下， photometry 是不准确的，因此我们通过多传感器融合方法来解决这个问题，其中我们输入一个额外的同步稀疏点云（即来自激光雷达）在图像平面上的投影作为一个稀疏深度图，以及一个相机图像。我们方法的关键在于利用丰富存在的模拟数据，首先通过学习从稀疏到（粗）密集深度图的映射来近似 3D 场景结构 – 我...

05 27,2024arXiv_CV

Controllable Longer Image Animation with Diffusion Models

生成真实动画视频的计算机视觉领域是一个重要的研究课题。基于物理模拟和运动预测的方法已经取得了显著的进步，但它们通常局限于特定的物体纹理和运动轨迹，无法展示高度复杂的环境和物理 dynamics。在本文中，我们介绍了一种使用运动优先级和视频扩散模型进行开放领域的可控图像动画方法。我们的方法通过从视频中提取运动场信息来精确控制可移动区域的运动方向和速度，并学习运动轨迹和强度。当前的预训练...

05 27,2024arXiv_CV

EF-Calib: Spatiotemporal Calibration of Event- and Frame-Based Cameras Using Continuous-Time Trajectories

事件相机，一种以生物启发的异步触发相机，由于其低延迟和高动态范围，为与帧基础相机进行融合提供了有前景的曙光。然而，同时使用事件和帧基础相机的立体视觉系统的校准仍然是一个巨大的挑战。在本文中，我们提出了EF-Calib，一个使用连续时间轨迹的基于事件和帧基础相机的非平稳校准框架。我们提出了适用于两种相机类型的新颖校准模式，并相应地提出了一种新的校准算法。通过利用事件的异步性质，我们引...

05 27,2024arXiv_CV

FedHPL: Efficient Heterogeneous Federated Learning with Prompt Tuning and Logit Distillation

联邦学习（FL）是一种流行的隐私保护范例，它允许分布式客户端在保持原始数据在本地的情况下，与集中服务器合作训练模型。在实践中，不同的模型架构、不同的数据分布和本地客户端的有限资源等因素会导致模型性能下降和收敛速度变慢。然而，现有的FL方法只能解决上述异质挑战，并且具有明显的性能限制。值得注意的是，还没有探索到一个统一的框架来克服这些挑战。因此，我们提出了FedHPL，一种基于 Prompt ...