Transformer编码器部分实现

一.前言

上章节介绍了输入部分实现，本章节来介绍一下编码器的实现，编码器内容有点多，请大家做好准备，了解编码器中各个组成部分的作用并且掌握编码器中各个组成部分的实现过程。

二.编码器介绍

编码器部分: * 由N个编码器层堆叠而成 * 每个编码器层由两个子层连接结构组成 * 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接 * 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。

三.掩码张量

3.1 掩码张量介绍

掩代表遮掩，码就是我们张量中的数值，它的尺寸不定，里面一般只有1和0的元素，代表位置被遮掩或者不被遮掩，至于是0位置被遮掩还是1位置被遮掩可以自定义，因此它的作用就是让另外一个张量中的一些数值被遮掩，也可以说被替换, 它的表现形式是一个张量.

3.2 掩码张量的作用

在transformer中, 掩码张量的主要作用在应用attention(将在下一小节讲解)时，有一些生成的attention张量中的值计算有可能已知了未来信息而得到的，未来信息被看到是因为训练时会把整个输出结果都一次性进行Embedding，但是理论上解码器的的输出却不是一次就能产生最终结果的，而是一次次通过上一次结果综合得出的，因此，未来的信息可能被提前利用. 所以，我们会进行遮掩. 关于解码器的有关知识将在后面的章节中讲解.

3.3 生成掩码张量的代码分析

# 导入必备的工具包
import torch
import numpy as np

def subsequent_mask(size):
"""生成向后遮掩的掩码张量, 参数size是掩码张量最后两个维度的大小, 它的最后两维形成一个方阵"""
# 在函数中, 首先定义掩码张量的形状
attn_shape = (1, size, size)

# 然后使用np.ones方法向这个形状中添加1元素,形成上三角阵, 最后为了节约空间,
# 再使其中的数据类型变为无符号8位整形unit8
subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')

# 最后将numpy类型转化为torch中的tensor, 内部做一个1 – 的操作,
# 在这个其实是做了一个三角阵的反转, subsequent_mask中的每个元素都会被1减,
# 如果是0, subsequent_mask中的该位置由0变成1
# 如果是1, subsequent_mask中的该位置由1变成0
return torch.from_numpy(1 – subsequent_mask)

np.triu演示:

>>> np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], k=-1)

array([[ 1, 2, 3],

[ 4, 5, 6],

[ 0, 8, 9],

[ 0, 0, 12]])

>>> np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], k=0)

array([[ 1, 2, 3],

[ 0, 5, 6],

[ 0, 0, 9],

[ 0, 0, 0]])

>>> np.triu([[1,2,3],[4,5,6],[7,8,9],[10,11,12]], k=1)

array([[ 0, 2, 3],

[ 0, 0, 6],

[ 0, 0, 0],

[ 0, 0, 0]])

输入实例:

# 生成的掩码张量的最后两维的大小

size = 5

调用:

sm = subsequent_mask(size)

print("sm:", sm)

输出效果:

# 最后两维形成一个下三角阵

sm: tensor([[[1, 0, 0, 0, 0],
[1, 1, 0, 0, 0],
[1, 1, 1, 0, 0],
[1, 1, 1, 1, 0],
[1, 1, 1, 1, 1]]], dtype=torch.uint8)

3.4 掩码张量的可视化

plt.figure(figsize=(5, 5))
plt.imshow(subsequent_mask(20)[0])
plt.show()

输出效果:

效果分析:
通过观察可视化方阵, 黄色是1的部分, 这里代表被遮掩, 紫色代表没有被遮掩的信息, 横坐标代表目标词汇的位置, 纵坐标代表可查看的位置;
我们看到, 在0的位置我们一看望过去都是黄色的, 都被遮住了，1的位置一眼望过去还是黄色, 说明第一次词还没有产生, 从第二个位置看过去, 就能看到位置1的词, 其他位置看不到, 以此类推.

3.5 掩码张量总结

学习了什么是掩码张量:
- 掩代表遮掩，码就是我们张量中的数值，它的尺寸不定，里面一般只有1和0的元素，代表位置被遮掩或者不被遮掩，至于是0位置被遮掩还是1位置被遮掩可以自定义，因此它的作用就是让另外一个张量中的一些数值被遮掩, 也可以说被替换, 它的表现形式是一个张量.
学习了掩码张量的作用:
- 在transformer中, 掩码张量的主要作用在应用attention(将在下一小节讲解)时，有一些生成的attetion张量中的值计算有可能已知量未来信息而得到的，未来信息被看到是因为训练时会把整个输出结果都一次性进行Embedding，但是理论上解码器的的输出却不是一次就能产生最终结果的，而是一次次通过上一次结果综合得出的，因此，未来的信息可能被提前利用. 所以，我们会进行遮掩. 关于解码器的有关知识将在后面的章节中讲解.
学习并实现了生成向后遮掩的掩码张量函数: subsequent_mask
- 它的输入是size, 代表掩码张量的大小.
- 它的输出是一个最后两维形成1方阵的下三角阵.
- 最后对生成的掩码张量进行了可视化分析, 更深一步理解了它的用途.

四.注意力机制

我们这里使用的注意力的计算规则:

4.1 注意力计算规则的代码分析

import torch
import torch.nn.functional as F

def attention(query, key, value, mask=None, dropout=None):
"""注意力机制的实现, 输入分别是query, key, value, mask: 掩码张量,
dropout是nn.Dropout层的实例化对象, 默认为None"""
# 在函数中, 首先取query的最后一维的大小, 一般情况下就等同于我们的词嵌入维度, 命名为d_k
d_k = query.size(-1)
# 按照注意力公式, 将query与key的转置相乘, 这里面key是将最后两个维度进行转置, 再除以缩放系数根号下d_k, 这种计算方法也称为缩放点积注意力计算.
# 得到注意力得分张量scores
scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)

# 接着判断是否使用掩码张量
if mask is not None:
# 使用tensor的masked_fill方法, 将掩码张量和scores张量每个位置一一比较, 如果掩码张量处为0
# 则对应的scores张量用-1e9这个值来替换, 如下演示
scores = scores.masked_fill(mask == 0, -1e9)

# 对scores的最后一维进行softmax操作, 使用F.softmax方法, 第一个参数是softmax对象, 第二个是目标维度.
# 这样获得最终的注意力张量
p_attn = F.softmax(scores, dim = -1)

# 之后判断是否使用dropout进行随机置0
if dropout is not None:
# 将p_attn传入dropout对象中进行'丢弃'处理
p_attn = dropout(p_attn)

# 最后, 根据公式将p_attn与value张量相乘获得最终的query注意力表示, 同时返回注意力张量
return torch.matmul(p_attn, value), p_attn

tensor.masked_fill演示:

>>> input = Variable(torch.randn(5, 5))

>>> input

Variable containing:

2.0344 -0.5450 0.3365 -0.1888 -2.1803

1.5221 -0.3823 0.8414 0.7836 -0.8481

-0.0345 -0.8643 0.6476 -0.2713 1.5645

0.8788 -2.2142 0.4022 0.1997 0.1474

2.9109 0.6006 -0.6745 -1.7262 0.6977

[torch.FloatTensor of size 5×5]

>>> mask = Variable(torch.zeros(5, 5))

>>> mask Variable containing:

0 0 0 0 0

[torch.FloatTensor of size 5×5]

>>> input.masked_fill(mask == 0, -1e9)

Variable containing:

-1.0000e+09 -1.0000e+09 -1.0000e+09 -1.0000e+09 -1.0000e+09

[torch.FloatTensor of size 5×5]

输入参数:

# 我们令输入的query, key, value都相同, 位置编码的输出

query = key = value = pe_result

Variable containing:

( 0 ,.,.) =

46.5196 16.2057 -41.5581 … -16.0242 -17.8929 -43.0405

-32.6040 16.1096 -29.5228 … 4.2721 20.6034 -1.2747

-18.6235 14.5076 -2.0105 … 15.6462 -24.6081 -30.3391

0.0000 -66.1486 -11.5123 … 20.1519 -4.6823 0.4916

( 1 ,.,.) =

-24.8681 7.5495 -5.0765 … -7.5992 -26.6630 40.9517

13.1581 -3.1918 -30.9001 … 25.1187 -26.4621 2.9542

-49.7690 -42.5019 8.0198 … -5.4809 25.9403 -27.4931

-52.2775 10.4006 0.0000 … -1.9985 7.0106 -0.5189

[torch.FloatTensor of size 2x4x512]

调用:

attn, p_attn = attention(query, key, value)

print("attn:", attn)

print("p_attn:", p_attn)

4.2 带有mask的输入参数

query = key = value = pe_result

# 令mask为一个2x4x4的零张量
mask = Variable(torch.zeros(2, 4, 4))

调用:

attn, p_attn = attention(query, key, value, mask=mask)

print("attn:", attn)

print("p_attn:", p_attn)

4.3 注意力机制总结

学习并实现了注意力计算规则的函数: attention
- 它的输入就是Q，K，V以及mask和dropout, mask用于掩码, dropout用于随机置0.
- 它的输出有两个, query的注意力表示以及注意力张量.

五.多头注意力机制

5.1 多头注意力机制概念

从多头注意力的结构图中，貌似这个所谓的多个头就是指多组线性变换层，其实并不是，我只有使用了一组线性变化层，即三个变换张量对Q，K，V分别进行线性变换，这些变换不会改变原有张量的尺寸，因此每个变换矩阵都是方阵，得到输出结果后，多头的作用才开始显现，每个头开始从词义层面分割输出的张量，也就是每个头都想获得一组Q，K，V进行注意力机制的计算，但是句子中的每个词的表示只获得一部分，也就是只分割了最后一维的词嵌入向量. 这就是所谓的多头，将每个头的获得的输入送到注意力机制中, 就形成多头注意力机制.

5.2 多头注意力机制结构图

5.3 多头注意力机制的作用

这种结构设计能让每个注意力机制去优化每个词汇的不同特征部分，从而均衡同一种注意力机制可能产生的偏差，让词义拥有来自更多元的表达，实验表明可以从而提升模型效果.

六.前馈全连接层

6.1 前馈全连接层

在Transformer中前馈全连接层就是具有两层线性层的全连接网络.
前馈全连接层的作用:
- 考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力.

6.2 前馈全连接层的代码分析

import torch.nn as nn
import torch.nn.functional as F

# 通过类PositionwiseFeedForward来实现前馈全连接层
class PositionwiseFeedForward(nn.Module):
def __init__(self, d_model, d_ff, dropout=0.1):
"""初始化函数有三个输入参数分别是d_model, d_ff,和dropout=0.1，第一个是线性层的输入维度也是第二个线性层的输出维度，
因为我们希望输入通过前馈全连接层后输入和输出的维度不变. 第二个参数d_ff就是第二个线性层的输入维度和第一个线性层的输出维度.
最后一个是dropout置0比率."""
super(PositionwiseFeedForward, self).__init__()

# 首先按照我们预期使用nn实例化了两个线性层对象，self.w1和self.w2
# 它们的参数分别是d_model, d_ff和d_ff, d_model
self.w1 = nn.Linear(d_model, d_ff)
self.w2 = nn.Linear(d_ff, d_model)
# 然后使用nn的Dropout实例化了对象self.dropout
self.dropout = nn.Dropout(dropout)

def forward(self, x):
"""输入参数为x，代表来自上一层的输出"""
# 首先经过第一个线性层，然后使用Funtional中relu函数进行激活,
# 之后再使用dropout进行随机置0，最后通过第二个线性层w2，返回最终结果.
return self.w2(self.dropout(F.relu(self.w1(x))))

ReLU函数公式: ReLU(x)=max(0, x)
ReLU函数图像:

实例化参数:

d_model = 512

# 线性变化的维度

d_ff = 64

dropout = 0.2

输入参数:

# 输入参数x可以是注意力层的输出

x = attn

调用:

ff = PositionwiseFeedForward(d_model, d_ff, dropout)

ff_result = ff(x)

print(ff_result)

print(ff_result.shape)

6.3 前馈全连接层总结

学习了什么是前馈全连接层:
- 在Transformer中前馈全连接层就是具有两层线性层的全连接网络.
学习了前馈全连接层的作用:
- 考虑注意力机制可能对复杂过程的拟合程度不够, 通过增加两层网络来增强模型的能力.
学习并实现了前馈全连接层的类: PositionwiseFeedForward
- 它的实例化参数为d_model, d_ff, dropout, 分别代表词嵌入维度, 线性变换维度, 和置零比率.
- 它的输入参数x, 表示上层的输出.
- 它的输出是经过2层线性网络变换的特征表示.

七.规范化层

7.1 规范化层的作用

它是所有深层网络模型都需要的标准网络层，因为随着网络层数的增加，通过多层的计算后参数可能开始出现过大或过小的情况，这样可能会导致学习过程出现异常，模型可能收敛非常的慢. 因此都会在一定层数后接规范化层进行数值的规范化，使其特征数值在合理范围内.

7.2 规范化层的代码实现

实例化参数:

features = d_model = 512

eps = 1e-6

输入参数:

# 输入x来自前馈全连接层的输出

x = ff_result

调用:

ln = LayerNorm(features, eps)

ln_result = ln(x)

print(ln_result)

print(ln_result.shape)

6.3 规范化层总结

学习了规范化层的作用:
- 它是所有深层网络模型都需要的标准网络层，因为随着网络层数的增加，通过多层的计算后参数可能开始出现过大或过小的情况，这样可能会导致学习过程出现异常，模型可能收敛非常的慢. 因此都会在一定层数后接规范化层进行数值的规范化，使其特征数值在合理范围内.
学习并实现了规范化层的类: LayerNorm
- 它的实例化参数有两个, features和eps，分别表示词嵌入特征大小，和一个足够小的数.
- 它的输入参数x代表来自上一层的输出.
- 它的输出就是经过规范化的特征表示

八.总结

本章节的内容很多，也特别难理解，大家消化一下，但是这个是非常重要的，后面还会给大家介绍解码部分，期待大家的点赞关注和收藏。

一.前言

二.编码器介绍