主要来自于李宏毅老师的视频，在此之上进行了重点信息的总结。

Self-attention

对于神经网络的输入，可能是一个vector或者一组vector，例如输入是一句话，可以将每个词处理后作为一组vector输入到网络中。

self-attention要做的事情简单来说，输入一组vector，根据vector之间的相关联程度，计算并输出一组output vector。

Self-attention输出的计算流程(以 $b^1$ 为例)

第一步，计算输入向量 $a^1$ $a^{1}$ 和其他向量相关程度 $alpha$ $a lp ha$
- 如何计算任意两两vector之间的 $alpha$ $a lp ha$
  - 常用方法如下，一般采用Dot-product
  - 以计算 $alpha'_{1,i}$ 为例，首先拿 $W^q$ 矩阵和输入向量 $a^1$ 相乘获得中间矩阵 $q^1$
  - 再拿 $W^k$ 矩阵分别和其他输入向量相乘获得中间矩阵 $k^i$
  - $q^1$ 和 $k^i$ 进行Dot-product获得 $alpha_{1,i}$
  - 将 $alpha_{1,i}$ 通过Softmax获得最后的相关性 $alpha'_{1,i}$ 输出
  - Note: 不是一定需要Softmax，可以替换其他方法
第二步，基于上面得到的attention scores来抽取sequence里面的重要信息
- 将每个vector乘上wv矩阵得到中间矩阵 $v^i$
- 使用先前计算的 $alpha'_{1,i}$ 乘上 $v^i$ ，最后累加得到最后的 $b^1$
- 其余的 $b^i$ 计算方法类似

从矩阵角度来进行操作

简化版

Attention和Self-attention的区别？

以Encoder-Decoder框架为例，输入Source和输出Target内容是不一样的，比如对于英-中机器翻译来说，Source是英文句子，Target是对应的翻译出的中文句子，Attention发生在Target的元素Query和Source中的所有元素之间。
Self-attention，指的不是Target和Source之间的Attention机制，而是Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target=Source这种特殊情况下的Attention。
两者具体计算过程是一样的，只是计算对象发生了变化。

Multi-head Self-attention

为什么需要Multi-head Attention？

可以让Attention有更丰富的层次。有多个QKV的话，可以分别从多个不同角度来看待Attention。这样的话，输入a，对于不同的multi-headed Attention，就会产生不同的b
从直觉上理解为什么需要multi-headed Attention
- 首先观察上面左图，每个单词对应八个attention，八个attention分别用蓝色到灰色表示，首先确定一个单词it，可以从左图中看到其他单词与it的相关性
- 提取出橙色和绿色的色块，可以看到单词it对应橙色色块最深的是animal，绿色色块最深的是tire，橙色的注意力主要表明it是个什么东西，从东西的角度说明它是一种动物，而不是苹果或者香蕉。如果我们从状态这个层面来看，it这个动物现在是在怎么样的一个状态，它的状态是tired，而不是兴奋。所以不同的Self-Attention Head是不同方面的理解。

通过前面的内容可以发现，Self-attention缺少了非常重要的位置信息。
处理方法

transformer本质上是一个Sequence-to-sequence(Seq2seq) model，即输入一个sequence，输出一个sequence，输出长度由model自己决定。
应用场景

Seq2seq model主要有Encoder和Decoder构成。

黄色为输出的中间vector

思考：为什么需要用layerNormalization？阅读论文

总览

总览

什么是Masked Multi-head Attention？

可以看到在原来的Self-attention中，计算 $b^i$ 需要考虑到全部的输入vector $a^j$ ，但是decoder只能接受来自于自己前面序列的信息，因此变为下面的形态
具体计算的变化(以 $b^2$ $b^{2}$ 为例)
- 可以看到 $b^2$ 的计算不再需要 $a^3$ ， $a^4$ 的参与

Cross attention如何运行？

可以看到encoder输出的两个箭头分别表示K, V矩阵，与Masked Sell-attention输出的Q矩阵进行对应操作得到中间变量进行输出。

在原始网络中，Decoder有许多Block，Encoder最后的输出需要分别发送到这些Block中，但是也有许多的变体。

Autoregressive(AT) VS Non-autoregressive(NAT)

Decoder每一次的输出，需要和Ground truth计算一次cross entropy，相当于做分类问题，我们需要最小化所有cross entropy的总和
每次的输入为标准答案，而不是上一次decoder的输出(Teacher Forcing)
问题: 训练过程中学习的是正确答案，但是test过程中不一定保证每一次的输出都是正确答案，如果输出错误答案，会大大影响后续的计算，如何合理解决？(exposure bias)
- 训练过程中给decoder的输入增加一些错误项(Scheduled sampling)