GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义,这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格(如体素)作为场景表示,忽略了占有稀疏性和对象尺寸的多样性,从而导致资源分配的不平衡。为了解决这个问题,我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景,其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息,并迭代优化3D...

read more..

All-day Depth Completion

我们提出了一种在不同的光照条件下进行深度估计的方法,包括白天和黑夜。由于在低光照条件下, photometry 是不准确的,因此我们通过多传感器融合方法来解决这个问题,其中我们输入一个额外的同步稀疏点云(即来自激光雷达)在图像平面上的投影作为一个稀疏深度图,以及一个相机图像。我们方法的关键在于利用丰富存在的模拟数据,首先通过学习从稀疏到(粗)密集深度图的映射来近似 3D 场景结构 – 我...

read more..

MVMS-RCN: A Dual-Domain Unfolding CT Reconstruction with Multi-sparse-view and Multi-scale Refinement-correction

X-ray Computed Tomography(CT)是临床应用中最重要的诊断成像技术之一。稀疏视野CT成像减少了投影视图数量,降低了辐射剂量,并减轻了辐射暴露的风险。目前大多数现有的深度学习(DL)和深度展开稀疏视野CT重建方法:1)没有完全利用投影数据;2)没有总是将架构设计 link 到数学理论;3)没有灵活地处理多稀疏视野重建分配。本文旨在使用数学原理并设计最优的DL成像算法进行稀疏视野成像重建。我们提出...

read more..

SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs

有效地支持长上下文长度对Transformer模型至关重要。自注意力计算的二次复杂性困扰了传统的Transformer。滑动窗口基于静态稀疏注意力的方法减轻了这个问题,通过限制输入标记的注意范围,将理论复杂度从二次降到线性。尽管窗口注意带来的稀疏度非常结构化,但它并不完全与传统加速器的微架构对齐,导致 suboptimal 的实现。为了应对这个问题,我们提出了一个数据流感知FPGA加速器设计SWAT,它有效地利用稀...

read more..

GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning

离线强化学习(Offline RL)面临着从静态数据集中学习有效的决策策略而不进行任何在线交互的挑战。数据增强技术,如噪声注入和数据合成,旨在通过平滑学习到的状态-动作区域来提高Q函数的近似。然而,这些方法通常无法直接提高离线数据集的质量,导致次优结果。为了应对这个问题,我们引入了 \textbf{GTA},生成轨迹增强,一种新颖的数据增强方法,旨在通过平滑轨迹来丰富离线数据。GTA在数据增强框架内应...

read more..

Scorch: A Library for Sparse Deep Learning

深度学习模型的规模快速增长,使得传统密集计算范式相形见绌。为了应对这一挑战,我们引入了Scorch,一个将高效的稀疏计算集成到PyTorch生态系统中的库,最初关注CPU上的推理工作负载。Scorch为稀疏向量提供了一个灵活且直观的接口,支持各种稀疏数据结构。Scorch引入了一个编译栈,自动优化关键优化,包括自动循环顺序、片元化和格式推断。与适应稀疏和密集数据的运行时相结合,Scorch在不需要牺牲可用性...

read more..

Clustering-based Learning for UAV Tracking and Pose Estimation

UAV跟踪和姿态估计在各种UAV相关任务中扮演着至关重要的角色,如编队控制和反UAV措施。准确在三维空间中检测和跟踪UAV仍然是一个尤其具有挑战性的问题,因为需要从不同的飞行环境中提取微UAV的稀疏特征,并持续匹配对应关系,尤其是在敏捷飞行中。通常,相机和激光雷达是用于在飞行中捕捉UAV轨迹的主要传感器类型。然而,这两种传感器在UAV分类和姿态估计方面都有局限性。本技术报告简要介绍了我们团队提出...

read more..

Temporal Spiking Neural Networks with Synaptic Delay for Graph Reasoning

尖峰神经网络(SNNs)作为一种类神经计算的生物启发模型,由于其精确的尖峰时间和事件驱动计算而具有计算能力和能效。一个重要的问题是如何让SNNs模仿人类似基于概念和关系的高层次推理,特别是充分利用时间域进行优化。本文揭示了SNNs与突触延迟和时间编码的叠加使得(知识)图推理执行高效。通过神经一般化路径公式,尖峰时间可以作为关系特性的额外维度进行编码。实证结果突出了时间延迟在关系处理中的...

read more..

RLSF: Reinforcement Learning via Symbolic Feedback

近年来,大型语言模型(LLMs)对人工智能的各个子领域产生了重大影响,尤其是对自然语言理解任务。然而,普遍认为,当代LLM的推理能力至多只是片段化的(即可能在某些问题实例上表现良好,但在其他实例上表现严重)。虽然传统的LLM微调方法(例如使用人类反馈)在某种程度上解决了这个问题,但它们却存在许多问题,包括不稳定的黑盒奖励模型、收集偏好数据困难以及稀疏的标量奖励值。为了应对这些挑战,我...

read more..

Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors

我们旨在利用从潜在扩散模型(LDM)中的先验知识来解决360三维场景的稀疏视图重建。稀疏视图设置具有不确定性,尤其是在相机围绕一点旋转360度时,因为在此场景中没有视觉信息可用,除了关注感兴趣物体的某些前景视图。在这项工作中,我们证明了预训练的2D扩散模型可以显著提高低成本微调场景的重建。具体来说,我们提出了SparseSplat360(Sp2360)方法,该方法采用级联填充缺失细节和去伪影模型的方法来填...

read more..