When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning
经验复习(Episodic Training)是每次成功或失败都会重置代理环境的训练方法,是训练有机体强化学习(RL)代理的事实上的标准。该假设环境可以轻松重置是Practically限制的,因为在现实世界中重置通常需要人类努力,并且在模拟中计算成本很高,而哲学上,我们希望智能代理能够连续学习而不需要干预。没有重置的工作(即 Reset-Free RL,RF-RL)具有前途,但面临着不可逆过渡的问题(例如,一个物体断裂),这导致学...