[神经网络]Transfomer架构
创始人
2024-05-29 01:07:58
0

一、概述

        Transfomer架构与传统CNN和RNN最大的区别在于其仅依赖自注意力机制,而没有卷积/循环操作。其相较于RNN,不需要进行时序运算,可以更好的进行并行;相较于CNN,其一次可以关注全图而不局限于感受野尺寸。

二、模型架构

        1.功能模块

                功能模块结构如下图所示:

                Inputs:编码器输入

                Outputs:解码器输入(解码器之前时刻的输出作为输入)

                Positional Encoding

                Transformer Block(编码器):由一个具有残差连接的多头注意力层和一个具有残差连接的前向传递网络组成。编码器的输出会作为解码器的输入。

                 Transformer Block(解码器):相较于编码器多了一个Masked Multi-Head Attention(掩码多头注意力)机制。

         2.网络结构

                ①编码器

                        堆叠了6个Transfomer Block,每个Block中有两个Sublyaer(子层)(Multi-head self-attention mechanism(多头自注意力机制)+MLP(多层感知机)),最后经过一个Layer Normalization

                        其采用公式可表达为:LayerNorm(x+Sublayer(x))<具备残差连接>

                        Layer Norm类似于Batch Nrom,均为求均值的算法,不同点在于Batch Nrom是求一个batch内(列)的均值,而Layer Norm是求一个样本(行)内的均值

                ②解码器

                        堆叠了6个Transfomer Block,每个Block中有三个Sublyaer(子层),解码器内会做一个自回归(当前时刻的输入是上一个时间的输出)。而为了保证 t 时刻不会看到之后的输出,在第一个多头注意力块中增加了一个掩码机制进行屏蔽。

                ③注意力机制

                        注意力函数(将query和一些key-value对映射成一个输出的函数,每个value的权重是其对应的key和查询的query的相似度得来的)

                        其公式可以写为:Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V

                        query和key的长度均等于d_k,value的长度等于d_v;将每组querykey进行内积作为相似度(值越大,相似度越高--cos函数);得出结果后再除以\sqrt{d_k}(即向量长度);最后以一个softmax得到权重。

                        得出权重后与vuale进行乘积即可得到输出。

                        实际运算时,query和key均可写作矩阵,采用下图所示方法计算。

                        掩码机制: 对于时间 k 的输入Q_t而言,在计算时应该只看k_1k_{t-1}时刻的值,但实际上注意力计算时Q_t会和所有 k 进行运算。固引入掩码机制,具体做法为:将k_t及其之后计算的值替换为一个很大的负数,在经过softmax后就会变为0。

                        多头机制:将整个query、key、value投影到低维(h次,原文的h=8),再做h次注意力函数;将每个函数的输出并在一起,再投影回高维度得到结果。如下图所示:

                                 图中的Linear用于低维投影;Scaled Dot-Product Attention为注意力机制。concat负责将结果合并。

                                其公式为:MultiHead(Q,K,V)=Concat(head_1,...head_h)W^O

                                                                where  head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

相关内容

热门资讯

欧尚改装安卓系统,打造智能驾驶... 你有没有想过,你的欧尚汽车其实也可以变身成为智能座驾呢?没错,就是那个你每天上下班的伙伴——欧尚,现...
安卓系统最新事件,揭秘最新重大... 你知道吗?最近安卓系统可是发生了一件超级大事件,简直让人兴奋得心跳加速!这不,我就迫不及待地来和你分...
早期电话手表安卓系统,安卓系统... 你有没有想过,小时候那些看似简单的玩具,现在竟然也能玩出花来?比如,早期的电话手表,那时候的功能可真...
安卓老系统手机游戏,安卓老系统... 你有没有发现,那些安卓老系统手机,虽然看起来有点古老,但它们在游戏界可是有着自己独特的魅力呢!想象那...
安卓系统重启还是开关,重启与开... 手机突然卡壳了,是不是又该给安卓系统来个重启大法了?别急,今天就来聊聊这个让人又爱又恨的“安卓系统重...
安卓系统刷入iso,轻松实现个... 你有没有想过,你的安卓手机其实可以像变形金刚一样,换上全新的“皮肤”?没错,就是刷入ISO系统!这可...
安卓机系统无法关机,探究原因与... 最近我的安卓手机怎么啦?总是关机不成功,真是让人头疼啊!这可怎么办呢?别急,让我来帮你分析找出解决这...
安卓什么系统广告最多,揭秘最新... 你有没有发现,每次打开安卓手机,广告就像无处不在的小精灵,跳来跳去,让人眼花缭乱?今天,就让我带你一...
禁止中国使用安卓系统,“安卓系... 你知道吗?最近互联网上掀起了一股热议,那就是关于中国是否应该禁止使用安卓系统的话题。这可不是闹着玩的...
如何分辨ios系统和安卓系统,... 你有没有想过,你的手机里装的是iOS系统还是安卓系统呢?这两种系统各有千秋,但分辨它们其实并不难。今...
如何查询安卓系统版本,安卓系统... 你有没有想过,你的安卓手机里隐藏着一个小秘密——那就是它的系统版本!知道这个秘密,不仅能让你更好地了...
lg电视系统和安卓系统比较,性... 你有没有发现,现在家里的电视已经不再是那个傻乎乎的“大盒子”了?它变得聪明起来,能和你互动,能上网,...
安卓系统增加主页按钮,Andr... 你知道吗?最近安卓系统又来了一次大更新,其中最引人注目的变化之一就是主页按钮的全新设计。这可不是一个...
安卓刷win系统机型,探索兼容... 你有没有想过,你的安卓手机竟然也能变身成为Windows系统的电脑呢?没错,这就是今天我要跟你分享的...
安卓系统pdf打不开,安卓系统... 你是不是也遇到了安卓系统打不开PDF文件的尴尬情况?别急,今天就来给你详细解析一下这个问题的原因和解...
微信安卓系统降级,轻松回退至旧... 你知道吗?最近微信安卓系统降级的事情可是闹得沸沸扬扬的。不少小伙伴都在问,这到底是怎么回事呢?别急,...
安卓手机系统会卡顿,安卓手机系... 你有没有发现,你的安卓手机最近有点儿“慢吞吞”的?是不是觉得打开应用要等半天,滑动屏幕都卡得让人抓狂...
安卓系统怎么关钥匙,轻松掌握钥... 手机里的安卓系统,是不是有时候让你觉得有点儿头疼?比如,当你想关掉手机,却发现钥匙在哪里呢?别急,今...
安卓系统有隐私空间,打造安全私... 你知道吗?在智能手机的世界里,安卓系统可是个超级明星呢!它不仅功能强大,而且现在还悄悄地给你准备了一...
安卓系统设置角标,打造专属通知... 你有没有发现,手机上的安卓系统设置里有个神奇的小功能——角标?这个小东西虽然不起眼,但作用可大了去了...