Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning
两种熵最小化和熵最大化的(好奇心)目标在不同的环境中已经被证明是有效的。然而,单独使用任何一种方法都不能使代理在不同的环境中 consistently 学习智能行为。为了找到一种基于熵的单一方法,以鼓励在任何环境中出现 emergence behaviors,我们提出了一个可以根据熵条件在线调整目标的代理。我们将选择建模为一个多臂老虎机问题。我们设计了一种新的内在反馈信号老虎机,捕捉了代理在环境中控制熵的能...