Rethinking Transformers in Solving POMDPs
本文研究了在现实场景中具有部分可观测性的环境中,序列决策算法(如强化学习)的有效性。我们详细研究了Transformer在部分可观测的马尔可夫决策过程(POMDPs)中的效果,并揭示了其理论局限性。我们发现,像Transformer这样在可观测性上挣扎的模型,将平凡语言(即Transformer无法建模的语言)归结为POMDP。这给Transformer在学习和理解POMDP特定归纳偏置带来了重大挑战,因为它们在其他模型(如RNNs)中...