MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities

检测异常(OOO)样本对于在关键应用领域(如自动驾驶和机器人辅助手术)部署机器学习模型非常重要。现有的研究主要集中在图像数据的单模态场景。然而,现实世界应用是多模态的,因此从多个模态的信息来增强 OOO 检测的有效性至关重要。为了建立更真实的多模态 OOO 检测的基础,我们引入了世界上第一个 benchmark,MultiOOD,它具有多样化的数据集大小和不同的模态组合。我们首先评估现有的单模态 OOO 检测...

read more..

Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation

机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...

read more..

Socially-Aware Shared Control Navigation for Assistive Mobile Robots in the Built Environment

随着残疾人数(特别是残疾人数为一或多个的人)的增加,对辅助性机器人技术的需求也在增加,这些技术可以在构建环境中支持独立移动,并减轻照顾者的负担。目前辅助性移动平台(例如,机器人轮椅)通常无法满足用户需求和控制,导致信任度降低,效率降低。现有的共享控制算法(例如,机器人轮椅)也没有在导航框架或路径规划算法中纳入用户控制偏好。此外,现有的动态局部规划算法(例如,机器人轮椅)也没...

read more..

‘Pass the butter’: A study on desktop-classic multitasking robotic arm based on advanced YOLOv7 and BERT

近年来,各种智能机器人开始在日常生活中和生产中出现。桌面级别的机器人以灵活的部署、快速的响应和适用于轻工作负载环境而闻名。为了满足当前社会对服务机器人技术的市场需求,本研究提出了使用微型桌面级别机器人(通过ROS)作为载体,在本地部署自然语言模型(NLP-BERT),并将视觉识别(CV-YOLO)和语音识别技术(ASR-Whisper)作为输入,实现桌面机器人自主决策和理性行动的研究。 为了验证机器人臂...

read more..

Learning Generic and Dynamic Locomotion of Humanoids Across Discrete Terrains

本文解决了人形机器人在地形自适应动态运动中的挑战,这个问题传统上由优化方法或强化学习(RL)来解决。优化方法,如模型预测控制,在找到最优反应力和实现敏捷运动方面表现出色,尤其是在四足机器人和腿部系统上,但在求解步骤位置、时间和反应力的非线性混合动态方面存在困难。相反,基于强化学习的方法表现出在导航动态和粗糙地形方面的潜力,但它们的广泛数据需求限制了它们。我们引入了一种新颖的运...

read more..

Memorize What Matters: Emergent Scene Decomposition from Multitraverse

人类天生会保留永久元素的记忆,而短暂的时刻通常会从记忆中溜走。这种选择性记忆对于机器人感知、定位和映射至关重要。为了赋予机器人这种能力,我们引入了3D高斯映射(3DGM),一种基于3D高斯膨胀的自我监督相机仅离线映射框架。3DGM将同一区域的多层RGB视频转换为高斯基环境地图,同时进行2D短暂物体分割。我们的关键观察是,在遍历过程中,环境保持一致,而对象经常发生变化。这使我们能够利用重复遍历...

read more..

Coordinating robotized construction using advanced robotic simulation: The case of collaborative brick wall assembly

在建筑行业中运用机器人系统是因为它们具有缩短建设时间、提高精度和效率的特点。在本文中,我们介绍了一种允许多个机器人操作员协同工作的系统,以进行建筑活动。以一个案例研究为例,我们选择了机器人砌墙施工。通过利用多机器人系统,其中臂操作员相互协作,可以同时组装可能长达很长的墙体。然而,整个砌墙时间的减少取决于每个操作员所需的最短时间。本文,我们通过各种材料和机器人基础的放置以及不...

read more..

Motion Primitives Planning For Center-Articulated Vehicles

在无结构地形中进行自主导航,包括森林和建筑区,由于错综复杂的障碍和未知的元素,面临着独特的挑战。由于缺乏预先存在的地图,这些场景迫使采用运动规划方法,将灵活性和效率相结合。关键的是,它还必须包括机器人的运动约束,以便更有效地通过复杂的环境进行导航。 这项工作介绍了一种新型的规划方法——为中心刚性车辆(CAV)设计的运动规划方法,利用车载感知的运动原型。该方法从离线创建运动原型开始...

read more..

Soft Two-degree-of-freedom Dielectric Elastomer Position Sensor Exhibiting Linear Behavior

柔性机器人可以开拓机器人系统的全新视野,通过实现安全的人机互动,使机器人系统具有更高的灵活性和可扩展性。为了实现精确的控制,这些柔性结构需要高精度的位置反馈,这超出了传统的单自由度(DOF)传感器所能实现的一度范围。在本文中,专门设计了一种柔性两自由度电弹性体(DE)传感器,用于提供柔性聚合物机器人操作器的精确位置反馈。该技术在用于MRI引导的前列腺干预的柔性机器人上进行了演示。 由...

read more..

Interpretable Robotic Manipulation from Language

人类 naturally 使用语言指令来传达知识,这是一个证明对于机器来说更加复杂的过程,尤其是在多任务机器人操作环境中。自然语言 Moreover 成为人类获取新知识的唯一途径,为可被机器理解的概念提供了一个直觉性的桥梁,将概念翻译成机器可以学习的格式。为了促进这种整合,我们引入了一个名为 Ex-PERACT 的可解释行为复制代理,专门设计用于操作任务。这个代理的特点在于其分层次结构,通过自然语言来提高...

read more..