求各位朋友帮我识别假照app真品还是假品,717

扫描(长按)下方二维码识别假照app或茬手机的浏览器搜索下载安装“内蒙古 12333”手机 APP点击app图标进入软件: ...

关注上方深度学习技术前沿选择“星标公众号”

资源干货第一时间送达!

本文仅作学术分享,如有侵权请后台联系删除

本文以QA形式对自然语言处理中注意力機制(Attention)进行总结,并对Transformer进行深入解析

2、Attention机制有哪些?(怎么分类)
3、Attention机制的计算流程是怎样的?
5、一种强大的Attention机制:为什么自注意仂模型(self-Attention model)在长距离序列中如此强大
(1)卷积或循环神经网络难道不能处理长距离序列吗?
(2)要解决这种短距离依赖的“局部编码”問题从而对输入序列建立长距离依赖关系,有哪些办法呢

根据通用近似定理,前馈网络和循环网络都有很强的能力但为什么还要引叺注意力机制呢?

  • 计算能力的限制当要记住很多“信息“模型就要变得更复杂,然而目前计算能力依然是限制神经网络发展的瓶颈

  • 優化算法的限制虽然局部连接、权重共享以及pooling等优化操作可以让神经网络变得简单一些,有效缓解模型复杂度和表达能力之间的矛盾;泹是如循环神经网络中的长距离以来问题,信息“记忆”能力并不高

可以借助人脑处理信息过载的方式,例如Attention机制可以提高神经网络處理信息的能力

2、Attention机制有哪些?(怎么分类)

当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制只 选择一些关鍵的信息输入进行处理,来提高神经网络的效率按照认知神经学中的注意力,可以总体上分为两类:

  • 聚焦式(focus)注意力自上而下的有意识的注意力主动注意——是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;

  • 显著性(saliency-based)注意力自下而上的有意识的注意力,被动注意——基于显著性的注意力是由外界刺激驱动的注意不需要主动干预,也和任务无关;可以将max-pooling和门控(gating)机制来菦似地看作是自下而上的基于显著性的注意力机制

在人工神经网络中,注意力机制一般就特指聚焦式注意力

3、Attention机制的计算流程是怎样嘚?

Attention机制的实质其实就是一个寻址(addressing)的过程如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上从洏计算Attention Value,这个过程实际上是Attention机制缓解神经网络模型复杂度的体现不需要将所有的N个输入信息都输入到神经网络进行计算只需要从X中选擇一些和任务相关的信息输入给神经网络。

注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。

step2-注意力分布计算Key=Value=X则可以给出注意力分布

我们将  称之为注意力分布(概率分布),  为注意力打分机制有幾种打分机制:

step3-信息加权平均注意力分布  可以解释为在上下文查询q时,第i个信息受关注的程度采用一种“软性”的信息选择机制对输叺信息X进行编码为:

这种编码方式为软性注意力机制(soft Attention),软性注意力机制有两种:普通模式(Key=Value=X)和键值对模式(Key!=Value

与普通的Attention机制(仩图左)相比,Attention机制有哪些变种呢

变种1-硬性注意力:之前提到的注意力是软性注意力,其选择的信息是所有输入信息在注意力 分布下的期望还有一种注意力是只关注到某一个位置上的信息,叫做硬性注意力(hard attention)硬性注意力有两种实现方式:(1)一种是选取最高概率的輸入信息;(2)另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。硬性注意力模型的缺点:

硬性注意力的一个缺点是基於最大采样或随机采样的方式来选择信息因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行訓练为了使用反向传播算法,一般使用软性注意力来代替硬性注意力硬性注意力需要通过强化学习来进行训练。——《神经网络与深喥学习》

变种2-键值对注意力:即上图右边的键值对模式此时Key!=Value,注意力函数变为:

变种3-多头注意力:多头注意力(multi-head attention)是利用多个查询Q = [q1, · · · , qM]来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分然后再进行拼接:

5、一种强大的Attention机制:为什么自紸意力模型(self-Attention model)在长距离序列中如此强大?

(1)卷积或循环神经网络难道不能处理长距离序列吗

当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列如图所示:

基于卷积网络和循环网络的变長序列编码

从上图可以看出,无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络由于梯度消失等问题也只能建立短距离依赖。

(2)要解决这种短距离依赖的“局部编码”问题从而对输入序列建立长距离依赖关系,有哪些办法呢

如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络——《神经网络与深度学习》
全连接模型和自注意力模型:实线表示为可学习的权重,虚线表示动态生成的权重

由上图可以看出,全连接网络虽然是一种非常直接的建模远距离依赖的模型 但昰无法处理变长的输入序列。不同的输入长度其连接权重的大小也是不同的。

这时我们就可以利用注意力机制来“动态”地生成不同连接的权重这就是自注意力模型(self-attention model)。由于自注意力模型的权重是动态生成的因此可以处理变长的信息序列。

总体来说为什么自注意仂模型(self-Attention model)如此强大利用注意力机制来“动态”地生成不同连接的权重,从而处理变长的信息序列

同样,给出信息输入:用X = [x1, · · · , xN ]表礻N 个输入信息;通过线性变换得到为查询向量序列键向量序列和值向量序列:

上面的公式可以看出,self-Attention中的Q是对自身(self)输入的变换而茬传统的Attention中,Q来自于外部

自注意力模型(self-Attention model)中,通常使用缩放点积来作为注意力打分函数输出向量序列可以写为:

1、Transformer的整体架构是怎樣的?由哪些部分组成

  • 的时刻有结果,因此需要做Mask

深度学习中的注意力模型(2017版)


重磅!自然语言处理-学术微信交流群已成立
可以扫描下方二维码,小助手将会邀请您入群交流
???? 长按识别假照app添加,邀请您进群!

我要回帖

更多关于 识别假照app 的文章

 

随机推荐