Transformers Can Do Arithmetic with the Right Embeddings
转换器在算术任务上的表现似乎很大程度上源于它们无法跟踪每个数字在大量数字中的确切位置。我们通过为每个数字添加一个编码其相对数字开始位置的嵌入来解决这个问题。除了这些嵌入为自己提供的提升外,我们证明了这个修复方法使得架构修改(如输入注入和循环层)进一步改善性能。有了位置解决,我们可以研究 transformer 的逻辑扩展能力。它们能否解决比训练数据中更大的和更复杂的算术问题?我们发现在仅...