Loading...

The Shaped Transformer:无限深度和宽度限制下的注意力模型

大模型11个月前发布 智源社区
265 0 0

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

L Noci, C Li, M B Li, B He, T Hofmann, C Maddison, D M. Roy
[ETH Zurich & University of Toronto & University of Oxford]

The Shaped Transformer:无限深度和宽度限制下的注意力模型

  • 动机:随着Transformer模型的成功,本文研究了一个修改过的基于Softmax的注意力模型在无限深度和宽度比例限制下的协方差矩阵。目标是通过对应的随机微分方程(SDE)来检查网络的稳定性。
  • 方法:修改了Transformer的注意力机制,使得Softmax输出在identity里居中,并通过一个与宽度相关的温度参数来缩放Softmax logits。通过模拟证明了SDE对应的有限大小模型的描述非常准确。
  • 优势:这种修改的注意力机制成功地防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。此外,这种方法还提供了对网络超参数如何影响协方差矩阵的理解。

通过修改Transformer的注意力机制,并通过随机微分方程(SDE)来检查网络的稳定性,成功防止了协方差结构的退化,这是深度注意力模型中的一个著名问题。

论文:https://arxiv.org/abs/2306.17759 

The Shaped Transformer:无限深度和宽度限制下的注意力模型

© 版权声明

相关文章

暂无评论

暂无评论...