正文

gpt3和transformer的关系（gpt transformer）

发布时间：2023-03-13 01:58:42 稿源：创意岭阅读： 93 问大家

大家好！今天让创意岭的小编来大家介绍下关于gpt3和transformer的关系的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、BERT详解（附带ELMo、GPT 介绍）
2、为什么说Transformer的注意力机制是相对廉价的？注意力机制相对更对于RNN系列及CNN系列算法有何优势？
3、gpt人工智能缩写
4、理解Bert

gpt3和transformer的关系（gpt transformer）

一、BERT详解（附带ELMo、GPT 介绍）

首先我会详细阐述 BERT 原理，然后简单介绍一下 ELMO 以及 GPT

BERT 全称为 B idirectional E ncoder R epresentation from T ransformer，是 Google 以 无监督的方式利用大量无标注文本 「炼成」的语言模型，其架构为 Transformer 中的 Encoder（BERT=Encoder of Transformer）

我在 Transformer 详解中已经详细的解释了所有 Transformer 的相关概念，这里就不再赘述

以往为了解决不同的 NLP 任务，我们会为该任务设计一个最合适的神经网络架构并做训练，以下是一些简单的例子

不同的 NLP 任务通常需要不同的模型，而设计这些模型并测试其 performance 是非常耗成本的（人力，时间，计算资源）。如果有一个能 直接处理各式 NLP 任务的通用架构 该有多好？

随着时代演进，不少人很自然地有了这样子的想法，而 BERT 就是其中一个将此概念付诸实践的例子

Google 在预训练 BERT 时让它同时进行两个任务：

1. 漏字填空

2. 下个句子预测

对正常人来说，要完成这两个任务非常简单。只要稍微看一下前后文就知道完形填空任务中 [MASK] 里应该填退了；而醒醒吧后面接你没有妹妹也十分合理(?)

接下来我会分别详细介绍论文中这两个任务的设计细节

在 BERT 中，Masked LM（Masked Language Model）构建了语言模型，简单来说，就是 随机遮盖或替换 一句话里面的任意字或词，然后让模型通过上下文预测那一个被遮盖或替换的部分，之后 做 Loss 的时候也只计算被遮盖部分的 Loss ，这其实是一个很容易理解的任务，实际操作如下：

这样做的好处是，BERT 并不知道 [MASK] 替换的是哪一个词，而且 任何一个词都有可能是被替换掉的，比如它看到的 apple 可能是被替换的词 。这样强迫模型在编码当前时刻词的时候 不能太依赖当前的词 ，而要考虑它的上下文，甚至根据上下文进行 "纠错"。比如上面的例子中，模型在编码 apple 时，根据上下文 my dog is，应该 把 apple 编码成 hairy 的语义而不是 apple 的语义

我们首先拿到属于上下文的一对句子，也就是两个句子，之后我们要在这两个句子中加一些特殊的 token： [CLS]上一句话[SEP]下一句话[SEP] 。也就是在句子开头加一个 [CLS] ，在两句话之间和句末加 [SEP] ，具体地如下图所示

可以看到，上图中的两句话明显是连续的。如果现在有这么一句话 [CLS] 我的狗很可爱 [SEP] 企鹅不擅长飞行 [SEP] ，可见这两句话就 不是连续的 。在实际训练中，我们会让这两种情况出现的数量为** 1:1**

Token Embedding 就是正常的词向量，即 PyTorch 中的 nn.Embedding()

Segment Embedding 的作用是用 embedding 的信息让模型 分开上下句 ，我们给上句的 token 全 0，下句的 token 全 1，让模型得以判断上下句的起止位置，例如

Position Embedding 和 Transformer 中的不一样，不是三角函数，而是 学习出来的

BERT 预训练阶段实际上是将上述两个任务结合起来，同时进行，然后将所有的 Loss 相加，例如

BERT 的 Fine-Tuning 共分为 4 种类型，以下内容、图片均来自台大李宏毅老师 Machine Learning 课程（以下内容图在上，解释在下）

为什么要用CLS？

这里李宏毅老师有一点没讲到，就是为什么要用第一个位置，即 [CLS] 位置的 output。这里我看了网上的一些博客，结合自己的理解解释一下。因为 BERT 内部是 Transformer，而 Transformer 内部又是 Self-Attention， 所以 [CLS] 的 output 里面肯定含有整句话的完整信息 ，这是毋庸置疑的。但是 Self-Attention 向量中，自己和自己的值其实是占大头的，现在假设使用的 output 做分类，那么这个 output 中实际上会更加看重，而又是一个有实际意义的字或词，这样难免会影响到最终的结果。但是 [CLS] 是没有任何实际意义的，只是一个占位符而已，所以就算 [CLS] 的 output 中自己的值占大头也无所谓。当然你 也可以将所有词的 output 进行 concat，作为最终的 output

首先将问题和文章通过 [SEP] 分隔，送入 BERT 之后，得到上图中黄色的输出。此时我们还要训练两个 vector，即上图中橙色和黄色的向量。首先将橙色和所有的黄色向量进行 dot product，然后通过 softmax，看哪一个输出的值最大，例如上图中对应的输出概率最大，那我们就认为 s=2

同样地，我们用蓝色的向量和所有黄色向量进行 dot product，最终预测得的概率最大，因此 e=3。最终，答案就是 s=2,e=3

你可能会觉得这里面有个问题，假设最终的输出 s>e 怎么办，那不就矛盾了吗？其实在某些训练集里，有的问题就是没有答案的，因此此时的预测搞不好是对的，就是没有答案

以上就是 BERT 的详细介绍，参考以下文章

ELMo是Embedding from language Model的缩写，它通过无监督的方式对语言模型进行预训练来学习单词表示

这篇论文的想法其实非常简单，但是效果却很好。它的思路是用 深度的双向 Language Model 在大量未标注数据上训练语言模型 ，如下图所示

在实际任务中，对于输入的句子，我们使用上面的语言模型来处理它，得到输出向量，因此这可以看作是一种 特征提取 。但是 ELMo 与普通的 Word2Vec 或 GloVe 不同，ELMo 得到的 Embedding 是 有上下文信息 的

具体来说，给定一个长度为 N 的句子，假设为，语言模型会计算给定的条件下出现的概率：

传统的 N-gram 模型 不能考虑很长的历史 ，因此现在的主流是使用 多层双向 LSTM 。在时刻，LSTM 的第层会输出一个隐状态，其中，是 LSTM 的层数。最上层是，对它进行 softmax 之后得到输出词的概率

类似的，我们可以用 一个反向 来计算概率：

通过这个 LSTM，我们可以得到。我们的损失函数是这两个 LSTM 的加和 :

这两个 LSTM 有各自的参数 和，而 Word Embedding 参数和 Softmax 参数是共享的

为了用于下游（DownStream）的特定任务，我们会把不同层的隐状态组合起来，具体组合的参数是根据不同的特定任务学习出来的，公式如下：

GPT 得到的语言模型参数不是固定的，它会根据特定的任务进行调整（通常是微调），这样的到的句子表示能更好的适配特定任务。它的思想也很简单，使用 单向 Transformer 学习一个语言模型 ，对句子进行无监督的 Embedding，然后 根据具体任务对 Transformer 的参数进行微调 。GPT 与 ELMo 有两个主要的区别：

这里解释一下上面提到的 单向 Transformer 。在 Transformer 的文章中，提到了 Encoder 与 Decoder 使用的 Transformer Block 是不同的。在 Decoder Block 中，使用了 Masked Self-Attention ，即句子中的每个词都只能对 包括自己在内的前面所有词进行 Attention ，这就是单向 Transformer。GPT 使用的 Transformer 结构就是将 Encoder 中的 Self-Attention 替换成了 Masked Self-Attention ，具体结构如下图所示

训练的过程也非常简单，就是将 n 个词的词嵌入 ( ) 加上位置嵌入 ( )，然后输入到 Transformer 中，n 个输出分别预测该位置的下一个词

这里的位置编码没有使用传统 Transformer 固定编码的方式，而是动态学习的

Pretraining 之后，我们还需要针对特定任务进行 Fine-Tuning。假设监督数据集合的输入是一个词序列，输出是一个分类的标签，比如情感分类任务

我们把输入 Transformer 模型，得到最上层最后一个时刻的输出，将其通过我们新增的一个 Softmax 层（参数为）进行分类，最后用 CrossEntropyLoss 计算损失，从而根据标准数据调整 Transformer 的参数以及 Softmax 的参数。这等价于最大似然估计：

正常来说，我们应该调整参数使得最大，但是 为了提高训练速度和模型的泛化能力 ，我们使用 Multi-Task Learning，同时让它最大似然和

这里使用的还是之前语言模型的损失（似然），但是使用的数据不是前面无监督的数据，而是使用当前任务的数据，而且只使用其中的，而不需要标签

针对不同任务，需要简单修改下输入数据的格式，例如对于相似度计算或问答，输入是两个序列，为了能够使用 GPT，我们需要一些特殊的技巧把两个输入序列变成一个输入序列

ELMo 和 GPT 最大的问题就是 传统的语言模型是单向的 —— 我们根据之前的历史来预测当前词。但是我们不能利用后面的信息。比如句子 The animal didn’t cross the street because it was too tired 。我们在编码 it 的语义的时候需要同时利用前后的信息，因为在这个句子中， it 可能指代 animal 也可能指代 street 。根据 tired ，我们推断它指代的是 animal 。但是如果把 tired 改成 wide ，那么 it 就是指代 street 了。传统的语言模型，都 只能利用单方向的信息 。比如前向的 RNN，在编码 it 的时候它看到了 animal 和 street ，但是它还没有看到 tired ，因此它不能确定 it 到底指代什么。如果是后向的 RNN，在编码的时候它看到了 tired ，但是它还根本没看到 animal ，因此它也不能知道指代的是 animal 。 Transformer 的 Self-Attention 理论上是可以同时关注到这两个词的，但是根据前面的介绍，为了使用 Transformer 学习语言模型，必须 用 Mask 来让它看不到未来的信息 ，所以它也不能解决这个问题的

根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词，这种类型的LM被称为自回归语言模型。（GPT,ELMO）GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文，也利用了下文，但是本质上仍然是自回归LM，这个跟模型具体怎么实现有关系。ELMO是做了两个方向（从左到右以及从右到左两个方向的语言模型），但是是分别有两个方向的自回归LM，然后把LSTM的两个方向的隐节点状态拼接到一起，来体现双向语言模型这个事情的。所以其实是两个自回归语言模型的拼接，本质上仍然是自回归语言模型。

自回归语言模型有优点有缺点，缺点是只能利用上文或者下文的信息，不能同时利用上文和下文的信息，当然，貌似ELMO这种双向都做，然后拼接看上去能够解决这个问题，因为融合模式过于简单，所以效果其实并不是太好。它的优点，其实跟下游NLP任务有关，比如生成类NLP任务，比如文本摘要，机器翻译等，在实际生成内容的时候，就是从左向右的， 自回归语言模型天然匹配这个过程 。而Bert这种DAE模式，在生成类NLP任务中，就面临训练过程和应用过程不一致的问题，导致 生成类的NLP任务到目前为止都做不太好 。

自回归语言模型只能根据上文预测下一个单词，或者反过来，只能根据下文预测前面一个单词。相比而言，Bert通过 在输入X中随机Mask掉一部分单词 ，然后预训练过程的主要任务之一是根据上下文单词来预测这些被Mask掉的单词，如果你对Denoising Autoencoder比较熟悉的话，会看出，这确实是典型的DAE的思路。那些被Mask掉的单词就是在输入侧加入的所谓噪音。类似Bert这种预训练模式，被称为DAE LM。

这种DAE LM的优缺点正好和自回归LM反过来，它能比较自然地融入双向语言模型，同时看到被预测单词的上文和下文，这是好处。缺点是啥呢？ 主要在输入侧引入[Mask]标记，导致预训练阶段和Fine-tuning阶段不一致的问题 ，因为Fine-tuning阶段是看不到[Mask]标记的。DAE吗，就要引入噪音，[Mask] 标记就是引入噪音的手段，这个正常。

XLNet的出发点就是：能否 融合自回归LM和DAE LM两者的优点 。就是说如果站在自回归LM的角度，如何引入和双向语言模型等价的效果；如果站在DAE LM的角度看，它本身是融入双向语言模型的，如何抛掉表面的那个[Mask]标记，让预训练和Fine-tuning保持一致。当然，XLNet还讲到了一个Bert被Mask单词之间相互独立的问题。

二、为什么说Transformer的注意力机制是相对廉价的？注意力机制相对更对于RNN系列及CNN系列算法有何优势？

QA形式对自然语言处理中注意力机制（Attention）进行总结，并对Transformer进行深入解析。

二、Transformer（Attention Is All You Need）详解

1、Transformer的整体架构是怎样的？由哪些部分组成？

2、Transformer Encoder 与 Transformer Decoder 有哪些不同？

3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？

4、multi-head self-attention mechanism具体的计算过程是怎样的？

5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

一、Attention机制剖析

1、为什么要引入Attention机制？

根据通用近似定理，前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢？

计算能力的限制：当要记住很多“信息“，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。
优化算法的限制：虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些，有效缓解模型复杂度和表达能力之间的矛盾；但是，如循环神经网络中的长距离以来问题，信息“记忆”能力并不高。

可以借助人脑处理信息过载的方式，例如Attention机制可以提高神经网络处理信息的能力。

2、Attention机制有哪些？（怎么分类？）

当用神经网络来处理大量的输入信息时，也可以借鉴人脑的注意力机制，只选择一些关键的信息输入进行处理，来提高神经网络的效率。按照认知神经学中的注意力，可以总体上分为两类：

聚焦式（focus）注意力：自上而下的有意识的注意力，主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；
显著性（saliency-based）注意力：自下而上的有意识的注意力，被动注意——基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关；可以将max-pooling和门控（gating）机制来近似地看作是自下而上的基于显著性的注意力机制。

在人工神经网络中，注意力机制一般就特指聚焦式注意力。

3、Attention机制的计算流程是怎样的？

Attention机制的实质：寻址（addressing）

Attention机制的实质其实就是一个寻址（addressing）的过程，如上图所示：给定一个和任务相关的查询Query向量 q，通过计算与Key的注意力分布并附加在Value上，从而计算Attention Value，这个过程实际上是Attention机制缓解神经网络模型复杂度的体现：不需要将所有的N个输入信息都输入到神经网络进行计算，只需要从X中选择一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步：一是信息输入；二是计算注意力分布α；三是根据注意力分布α 来计算输入信息的加权平均。

step1-信息输入：用X = [x1, · · · , xN ]表示N 个输入信息；

step2-注意力分布计算：令Key=Value=X，则可以给出注意力分布

我们将称之为注意力分布（概率分布），为注意力打分机制，有几种打分机制：

step3-信息加权平均：注意力分布可以解释为在上下文查询q时，第i个信息受关注的程度，采用一种“软性”的信息选择机制对输入信息X进行编码为：

这种编码方式为软性注意力机制（soft Attention），软性注意力机制有两种：普通模式（Key=Value=X）和键值对模式（Key！=Value）。

软性注意力机制（soft Attention）

4、Attention机制的变种有哪些？

与普通的Attention机制（上图左）相比，Attention机制有哪些变种呢？

变种1-硬性注意力：之前提到的注意力是软性注意力，其选择的信息是所有输入信息在注意力分布下的期望。还有一种注意力是只关注到某一个位置上的信息，叫做硬性注意力（hard attention）。硬性注意力有两种实现方式：（1）一种是选取最高概率的输入信息；（2）另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点：
硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导，因此无法使用在反向传播算法进行训练。为了使用反向传播算法，一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》
变种2-键值对注意力：即上图右边的键值对模式，此时Key！=Value，注意力函数变为：

变种3-多头注意力：多头注意力（multi-head attention）是利用多个查询Q = [q1, · · · , qM]，来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分，然后再进行拼接：

5、一种强大的Attention机制：为什么自注意力模型（self-Attention model）在长距离序列中如此强大？

（1）卷积或循环神经网络难道不能处理长距离序列吗？

当使用神经网络来处理一个变长的向量序列时，我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列，如图所示：

基于卷积网络和循环网络的变长序列编码

从上图可以看出，无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”：卷积神经网络显然是基于N-gram的局部编码；而对于循环神经网络，由于梯度消失等问题也只能建立短距离依赖。

（2）要解决这种短距离依赖的“局部编码”问题，从而对输入序列建立长距离依赖关系，有哪些办法呢？

如果要建立输入序列之间的长距离依赖关系，可以使用以下两种方法：一种方法是增加网络的层数，通过一个深层网络来获取远距离的信息交互，另一种方法是使用全连接网络。 ——《神经网络与深度学习》
全连接模型和自注意力模型：实线表示为可学习的权重，虚线表示动态生成的权重。

由上图可以看出，全连接网络虽然是一种非常直接的建模远距离依赖的模型，但是无法处理变长的输入序列。不同的输入长度，其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重，这就是自注意力模型（self-attention model）。由于自注意力模型的权重是动态生成的，因此可以处理变长的信息序列。

总体来说，为什么自注意力模型（self-Attention model）如此强大：利用注意力机制来“动态”地生成不同连接的权重，从而处理变长的信息序列。

（3）自注意力模型（self-Attention model）具体的计算流程是怎样的呢?

同样，给出信息输入：用X = [x1, · · · , xN ]表示N 个输入信息；通过线性变换得到为查询向量序列，键向量序列和值向量序列：

上面的公式可以看出，self-Attention中的Q是对自身（self）输入的变换，而在传统的Attention中，Q来自于外部。

self-Attention计算过程剖解（来自《细讲 | Attention Is All You Need 》）

注意力计算公式为：

自注意力模型（self-Attention model）中，通常使用缩放点积来作为注意力打分函数，输出向量序列可以写为：

二、Transformer（Attention Is All You Need）详解

从Transformer这篇论文的题目可以看出，Transformer的核心就是Attention，这也就是为什么本文会在剖析玩Attention机制之后会引出Transformer，如果对上面的Attention机制特别是自注意力模型（self-Attention model）理解后，Transformer就很容易理解了。

1、Transformer的整体架构是怎样的？由哪些部分组成？

Transformer模型架构

Transformer其实这就是一个Seq2Seq模型，左边一个encoder把输入读进去，右边一个decoder得到输出：

Seq2Seq模型

Transformer=Transformer Encoder+Transformer Decoder

（1）Transformer Encoder（N=6层，每层包括2个sub-layers）：

Transformer Encoder
sub-layer-1：multi-head self-attention mechanism，用来进行self-attention。
sub-layer-2：Position-wise Feed-forward Networks，简单的全连接网络，对每个position的向量分别进行相同的操作，包括两个线性变换和一个ReLU激活输出（输入输出层的维度都为512，中间层为2048）：

每个sub-layer都使用了残差网络：

（2）Transformer Decoder（N=6层，每层包括3个sub-layers）：

Transformer Decoder
sub-layer-1：Masked multi-head self-attention mechanism，用来进行self-attention，与Encoder不同：由于是序列生成过程，所以在时刻 i 的时候，大于 i 的时刻都没有结果，只有小于 i 的时刻有结果，因此需要做Mask。
sub-layer-2：Position-wise Feed-forward Networks，同Encoder。
sub-layer-3：Encoder-Decoder attention计算。

2、Transformer Encoder 与 Transformer Decoder 有哪些不同？

（1）multi-head self-attention mechanism不同，Encoder中不需要使用Masked，而Decoder中需要使用Masked；

（2）Decoder中多了一层Encoder-Decoder attention，这与 self-attention mechanism不同。

3、Encoder-Decoder attention 与self-attention mechanism有哪些不同？

它们都是用了 multi-head计算，不过Encoder-Decoder attention采用传统的attention机制，其中的Query是self-attention mechanism已经计算出的上一时间i处的编码值，Key和Value都是Encoder的输出，这与self-attention mechanism不同。代码中具体体现：

## Multihead Attention ( self-attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.dec,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=True,

scope="self_attention")

## Multihead Attention ( Encoder-Decoder attention)

self.dec = multihead_attention(queries=self.dec,

keys=self.enc,

num_units=hp.hidden_units,

num_heads=hp.num_heads,

dropout_rate=hp.dropout_rate,

is_training=is_training,

causality=False,

scope="vanilla_attention")

4、multi-head self-attention mechanism具体的计算过程是怎样的？

multi-head self-attention mechanism计算过程

Transformer中的Attention机制由Scaled Dot-Product Attention和Multi-Head Attention组成，上图给出了整体流程。下面具体介绍各个环节：

Expand：实际上是经过线性变换，生成Q、K、V三个向量；
Split heads: 进行分头操作，在原文中将原来每个位置512维度分成8个head，每个head维度变为64；
Self Attention：对每个head进行Self Attention，具体过程和第一部分介绍的一致；
Concat heads：对进行完Self Attention每个head进行拼接；

上述过程公式为：

5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的？有什么变化？

GPT中训练的是单向语言模型，其实就是直接应用Transformer Decoder；
Bert中训练的是双向语言模型，应用了Transformer Encoder部分，不过在Encoder基础上还做了Masked操作；

BERT Transformer 使用双向self-attention，而GPT Transformer 使用受限制的self-attention，其中每个token只能处理其左侧的上下文。双向 Transformer 通常被称为“Transformer encoder”，而左侧上下文被称为“Transformer decoder”，decoder是不能获要预测的信息的。

三、gpt人工智能缩写

GPT是GenerativePretrainedTransformer（生成预训练变换器）的缩写。

数字技术的发展，推动社会经济形态从农业经济、工业经济向数字经济（智慧经济）发展，数字经济直接或间接地利用数据方式推动经济发展。得益于人工智能，数字经济得到了极大的发展，人工智能作为一种日新月异的数字技术在经济领域广泛渗透，其颠覆了传统经济模式，为新经济形式注入活力，加速了生产力的提升。

四、理解Bert

离开深度学习瞎折腾了一段时间后，我终于又回来了。

于是赶紧回顾了下18年之后NLP的发展，基本就是将迁移学习更广泛的用于NLP领域，以及把17年年底的《Attention is all you need》里的思想给发扬光大了，ELMO弥补了传统word2vec多义词表示的不足，GPT使用更强大的特征提取器Transformer取代LSTM，Bert使用双向Transformer进一步改进了GPT成为这两年发展的集大成者。

从Bert模型所带来的NLP界里程碑式的影响和所取得的成就来看，无疑Bert将会是未来两三年NLP应用发展的基石，于是有必要仔细的看看其模型的结构，数据是如何流动的，训练的和测试的。

不得不说现在的学习环境相对几年前好太多了，本文主要参考了以下几篇文章,然后加了点自己的理解：

Dissecting BERT Part 1: The Encoder

The Illustrated Transformer

Dissecting BERT Appendix: The Decoder

它的总体框架同lstm时代的MNT或者是attention is all you need中的 transformer 一样的 encoder-decoder 结构：

我们先来介绍一下Encoder部分。

为了理解这个架构，我们使用一个简单的具体的例子，来看一下输入的数据是怎么通过 encoder 一步一步变化让后到输出的。

bert的词嵌入由三个嵌入token embedding、segment embedding,和position embedding叠加而成。

这个过程跟以往的RNNs没什么区别，比如给定一个句子:

第一步是先将其标记化：

然后是数字化，将每个标记映射到语料词汇表中的唯一整数编号：

接下来就是得到序列中每个词的词嵌入，也就是将整数映射到一个维的向量，这个向量是模型在训练时学习的，你可以将其视为一个查表的过程，这些向量的元素作为模型的参数，像其他权重一样通过反向传播进行了优化。

在论文中是使用WordPiece tokenization 来将英文单词转换成768（）维的向量,转化的过程类似这样：

把每个词的向量放到一起，就得到了一个 句子长度x向量维度 ( ) 尺寸的矩阵 Z :

说明一点，我们通常使用填充的方式来让输入序列具有相同的长度，比如通过添加"<pad>" 标记来增加某些序列的长度，还是前面的例子，填充后可能变为：

如果设定设定为9，那我们就把句子从5填充到了9。

但是，上面的embedding并没有包含词的位置信息。于是，我们的目标是能够根据词在句子中的位置适当调整这个向量，使它带上位置信息。

作者选择的方法是使用预定的（非学习的）正余弦函数将之间的数字加到前面的embedding中，即通过正余弦函数将位置表示为彼此的线性组合，从而实现网络学习中标记位置之间的相对关系。在Token embedding 获得的矩阵的基础上加上位置矩阵。

数学上，用表示序列中标记的位置，用表示token embedding特征向量中的位置：

具体来说，对于给定的句子 ,其位置嵌入矩阵为：

作者解释说，使用这种确定性方法的结果和学习位置表示（就像我们对词嵌入那样）的结果差不多，因此这样反而会有一些优势：

因此，添加了位置信息之后的矩阵是:

它是第一个encoder块的输入，尺寸是

共有N个编码器块连接在一起直到生成编码器的输出，特定的块负责查找输入表示之间的关系并将编码在其输出中。

直观地，通过这些块的迭代过程将帮助神经网络捕获输入序列中的词之间的更加复杂的关系，你可以把它理解成一个整体用来捕捉输入序列的语义。

encoder中使用Transformer的多头注意力机制，这意味着它将计算份不同权重矩阵的自注意力，然后将结果连接在一起。

这些并行注意力计算的结果称之为Head,我们用下标来表示一个特定的head和相关的权重矩阵。

如上图所示，一旦计算了所有head，它们将被连接起来，得到一个尺寸为的矩阵，然后将它乘以一个尺寸为的权重矩阵进行线性变换，就得到了一个尺寸为的最终结果，用数学公式表示就是：

其中的通过乘以相应权重矩阵获得，我们通过一个简单的例子来可视化的看一下这个过程。

这图描绘了输入标记通过 token embedding 和 positional encoding ，再输入到Encoder：

接下来，我们再来看下Encoder中的操作过程，先看一下单头的self-attention：

上图描绘了一个Head的是怎么来的,其中的的尺寸是 , 因为Q和K需要计算相似性，所以维度应当是相同的，的尺寸是 , 的维度可以相同也可以不同,在论文中 .

所谓的自注意力，就是与的点积进行的缩放之后通过softmax获得一个概率权重，然后用这些权重分别乘以各自的即可：

为了加深理解，我们选择其中一个头，通过图形继续可视化的看一下这个变化过程：

然后计算self-attention，

多头的话就是同时有多个上述计算过程在进行：

假设我们有8个Head,那么我们就获得8个 :

但是，显然前馈层只需要一个矩阵 ,怎么处理呢？类似多卷积核的处理，把这8个矩阵连起来，乘以一个权重矩阵压缩到一个矩阵。

为了有一个更加全面直观的认识，我们把上面整个过程放到一个图里，

显然，第二个encoder块是不需要embedding过程的，只要把第一个encoder块的输出作为输入即可。

经过上面的介绍，你应该对这个过程已经有了足够的了解，但是，为什么可以利用向量点积来计算注意力概率呢？

于是让我们进一步深入来了解其中的原理。

这个结构体系的关键在于：

也就是每个词的q向量与每个词的k向量的点积，套用点积公式：

这意味着和的方向越相似，长度越大，点积就越大。词与此之间关联越大，对于理解这个词时得到的关注越大，跟我们的本意是相同的。

我们再看一下最开头的结构示意图，每个encoder块在Multi-Head Attention之后经过一个 Add & Norm层才进入下一个块。于是我们来看一下这一层做了些什么。

Add 实际就是一个残差连接，将输出加上输入，这个在每一块的self-attenton以及FFN之后都会有，然后跟随一个Layer Norm 。

Norm 是一个Layer Normlization，将正则化，就是把它缩放到一个均值为0方差为1的域里。因为

不过一般在这一层之前，就会有一个dropout层。

每个encoder块都由 mulit-head atteion add & Norm feed forword network add & Norm 这样一个过程，下面来介绍一下这个Feed-Forward Network。

这是一个全连接层，包含两个线性变化和一个非线性函数（实际一般就是ReLu），

对于输入的 (尺寸为 ) ,通过权重矩阵 (尺寸为 )和偏置线性变换到隐藏层 (尺寸为 ) ,然后**ReLu **激活，记下来再用权重矩阵 (尺寸为 ) 和偏置的线性变换到输出层(尺寸为 ) ,表示成数学公式就是:

在最后一个encoder块输出之后连接到decoder。

Decoder和Encoder的结构是类似的，但是因为可视信息的不同，又有所差别。

Transformer解决的是翻译的问题，将一个句子翻译成另一种语言，我们希望模型能够捕捉到输入句子中词之间的关系，并且将输入句子中包含的信息与每一步已翻译的内容结合起来。继续上面的例子，我们的目标是把一个句子从英文翻译为西班牙文，这是我们获得的序列标记:

我们同之前一样来看看输入到输出数据是如何流动的。

这是我们的解码器的输入标记：

然后这是解码器的期望输出：

但是，这里存在一个问题，比如输入这边我们已经看到了'como' 的后面是'estas'，然后再用它来预测'estas' ，这显然是不合理的，因为模型在测试的时候是看不到后面的词的。

因此，我们需要修改注意力层，防止模型可以看到预测词右边的信息，与此同时，它能利用已经预测的词，即左边的信息。

继续上面的例子，我们将输入标记转换成矩阵的形式，并添加位置信息：

和encoder一样，decoder块的输出也将是大小为的矩阵，在逐行线性变换+softmax激活后，将生成一个举证，其中每行的最大元素表示下一个单词。也就是说，分配"<SS>" 的行负责预测“Hola”，分配"Hola"的行负责预测"," ...以此类推。比如，为了预测"estas"，我们将允许该行直接和下图中绿色区域互动，而不能和红色区域互动：

但是，在我们使用多头注意力机制的时候，所有的行都会产生交互，因此需要在输入的时候添加遮罩，这个遮罩会在注意力计算之后进行：

这是 self-attention 的计算结果：

然后我们在此基础上添加遮掩，就是把矩阵上三角的位置全部设置为：

于是，在进行softmax激活之后，矩阵就变成了：

恰好达到了我们的要求，那些需要在训练时忽略的右侧的词的注意力全部变成了0。

当将这个注意力矩阵与相乘时，预测的词就是模型可以访问元素右边的元素。注意，这里的多头注意力输出将是维的，因为它的序列长度是。

这个就是 Decoder 从 target序列 的输入，并经过 Masked Multi-Head Attention 的一个变化得到了，decoder的还有一部分输入来自于源语句经过 Encoder 的最终输出 (尺寸是 )。

接下来，就是与encoder一样的 Multi-Head Attention Add and Layer Norm -> FFN 的过程。

只不过，现在的来自于 ,而来自于 :

计算每个query相对于key的注意力之后，得到的是一个的矩阵，继续咱们的例子，比如注意力矩阵为：

如上图所见，这个注意力是当前Decoder输入与Encoder输出的每个词之间的注意力，咱们用这个矩阵再乘以 ,就得到了一个的矩阵，每一行代表了源语句相对于当前输入词汇的特征：

h个Head连接起来，尺寸变为 ,它通过的权重矩阵线性变换到一个的输出。