标签： Autonomous

05 27,2024arXiv_AI

GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction

3D语义占有预测旨在获得周围场景的3D细粒度几何和语义，这对于视觉中心自驾驶的鲁棒性至关重要。大多数现有方法采用密集网格（如体素）作为场景表示，忽略了占有稀疏性和对象尺寸的多样性，从而导致资源分配的不平衡。为了解决这个问题，我们提出了一个以物体为中心的表示来描述稀疏3D语义高斯分布的3D场景，其中每个高斯表示一个灵活的区域和其语义特征。我们通过关注机制从图像中聚合信息，并迭代优化3D...

05 27,2024arXiv_CV

Benchmarking and Improving Bird’s Eye View Perception Robustness in Autonomous Driving

近年来，从鸟瞰视图（BEV）表示的进步已经展示了在车辆3D感知方面非常出色的前景。然而，虽然这些方法在标准基准测试中都取得了令人印象深刻的结果，但它们在各种条件下的稳健性仍然缺乏充分评估。在这项研究中，我们提出了RoboBEV，一个广泛的基准集，旨在评估BEV算法的稳健性。该集包括一个多样化的相机污染类型，每个类型都分别研究了3种严重程度。我们的基准还考虑了在使用多模态模型时发生的完整传感...

05 27,2024arXiv_AI

Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection

3D物体检测的目标是恢复有关物体的3D信息，并作为自动驾驶感知的基本任务。其性能在很大程度上取决于标注训练数据的规模，然而为点云数据获得高质量注释的成本很高。虽然传统方法将伪标签作为未标注样本的补充用于训练，但3D点云数据的结构使物体和背景的组合变得容易，从而合成真实场景。为了提高检测模型的泛化能力，我们提出了一个基于难度的场景生成（HASS）方法，用于生成自适应的合成场景。我们为未...

05 27,2024arXiv_AI

MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常（OOO）样本对于在关键应用领域（如自动驾驶和机器人辅助手术）部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而，现实世界应用是多模态的，因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础，我们引入了世界上第一个 benchmark，MultiOOD，它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

05 27,2024arXiv_CV

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此，自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近，多模态大型语言模型（MLLMs）在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理，我们引入了一种自校正（SC）MLLM，使我们的模型不仅能够预测末端执行器姿态，还具有自主识别并纠正失败动作的能力。具体来说，我们首...

05 27,2024arXiv_AI

Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

预测不同动作的结果是自动驾驶中至关重要的一点。然而，现有的驾驶世界模型在泛化到未见环境方面仍然存在局限性，对于关键细节的预测精度和动作可控制性存在一定问题。在本文中，我们提出了Vista，一个具有高保真度和多功能的可扩展驾驶世界模型。通过系统地诊断现有方法，我们引入了几个关键要素来解决这些局限性。为了准确预测高分辨率下的实时动态，我们提出了两种新的损失来促进学习移动实例和结构信息...

05 27,2024arXiv_AI

BehaviorGPT: Smart Agent Simulation for Autonomous Driving with Next-Patch Prediction

模拟真实交通代理之间的互动对验证自动驾驶系统的安全性至关重要。现有的领导模拟器主要使用编码器-解码器结构来编码未来模拟的历史轨迹。然而，这种范式会复杂化模型架构，而手动分离历史和未来轨迹会导致数据利用率低下。为了应对这些挑战，我们提出了Behavior Generative Pre-trained Transformers（BehaviorGPT），一种仅使用解码器的自回归架构，旨在模拟多个代理的序列运动。至关重要的是，我们的方...

05 27,2024arXiv_AI

Socially-Aware Shared Control Navigation for Assistive Mobile Robots in the Built Environment

随着残疾人数（特别是残疾人数为一或多个的人）的增加，对辅助性机器人技术的需求也在增加，这些技术可以在构建环境中支持独立移动，并减轻照顾者的负担。目前辅助性移动平台（例如，机器人轮椅）通常无法满足用户需求和控制，导致信任度降低，效率降低。现有的共享控制算法（例如，机器人轮椅）也没有在导航框架或路径规划算法中纳入用户控制偏好。此外，现有的动态局部规划算法（例如，机器人轮椅）也没...

05 27,2024arXiv_RO

‘Pass the butter’: A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT

近年来，各种智能机器人开始在日常生活中和生产中出现。桌面级别的机器人以灵活的部署、快速的响应和适用于轻工作负载环境而闻名。为了满足当前社会对服务机器人技术的市场需求，本研究提出了使用微型桌面级别机器人（通过ROS）作为载体，在本地部署自然语言模型（NLP-BERT），并将视觉识别（CV-YOLO）和语音识别技术（ASR-Whisper）作为输入，实现桌面机器人自主决策和理性行动的研究。为了验证机器人臂...

05 27,2024arXiv_CV

PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes

社交VR平台通过允许用户创建和分享他们自己的虚拟空间，实现了社交、经济和创意活动。在社交VR中，场景内的摄影是衡量游客活动的一个重要指标。尽管自动识别场景内的摄影点可以促进创建VR场景和提高游客体验，但在定量评估场景内拍摄的照片和高效探索大型VR场景方面存在挑战。我们提出了PanoTree，一个在VR场景中自动探索摄影点的工具。为了评估VR场景中捕获的图像的美学，在一个由社交VR平台收集的大型数...