Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation
机器人操作策略在遇到新颖任务或物体实例时表现不令人满意。因此,自动检测和自我纠正失败动作的能力对于实用的机器人系统至关重要。最近,多模态大型语言模型(MLLMs)在视觉指令跟随和各种任务中显示出的前景已经引起了人们的关注。为了将通用MLLM作为端到端机器人代理,我们引入了一种自校正(SC)MLLM,使我们的模型不仅能够预测末端执行器姿态,还具有自主识别并纠正失败动作的能力。具体来说,我们首...