自注意力机制(Self-Attention) 是Transformer中最耗时的部分。
总时间复杂度为:
👉 O(n²·d)
这是因为:
👉 O(n²),主要是因为要存储 n×n 的注意力矩阵。
当序列变长时,n² 增长得非常快,导致计算量急剧上升,限制了处理长文本的能力。
常见方法包括:
这些方法可以将复杂度降到 O(n·d) 或 O(n·logn·d),提高效率。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!