当前位置: 首页 > news >正文

next.js做纯静态网站17素材网官网

next.js做纯静态网站,17素材网官网,平昌网站建设,wordpress做首页标准位置编码 起源原理证明:对于任何固定的偏移量 k k k, P E p o s k PE_{posk} PEposk​可以表示为 P E p o s PE_{pos} PEpos​的线性函数。计算 P E p o s k 与 P E p o s PE_{posk} 与PE_{pos} PEposk​与PEpos​的内积结论 通俗理解缺点 起源 由…

起源

由于原始的transformer模型不包含递归和卷积,为了使模型利用序列的顺序,原文在input embeddings 上加入了“位置编码”,位置编码的维度和input embeddings的维度 d m o d e l d_{model} dmodel一样大,所以两者可以相加。加入位置编码的位置如下图所示:
在这里插入图片描述

原理

使用不同频率的正弦和余弦函数:
在这里插入图片描述
其中 p o s pos pos是token在序列中的位置, i i i是维度,也就是说,位置编码的每一个维度对应于一个正弦波,波长从 2 π 2\pi 2π 10000 10000 10000 × 2 π \times 2\pi ×2π形成几何级数。偶数用 s i n sin sin,单数用 c o s cos cos
(下图展示位置编码的细节,来源在这)
在这里插入图片描述

证明:对于任何固定的偏移量 k k k P E p o s + k PE_{pos+k} PEpos+k可以表示为 P E p o s PE_{pos} PEpos的线性函数。

P E ( p o s + k , 2 i ) = sin ⁡ ( p o s + k 1000 0 2 i d ) = sin ⁡ ( p o s 1000 0 2 i d + k 1000 0 2 i d ) PE(pos+k, 2i) = \sin\left(\frac{pos+k}{10000^{\frac{2i}{d}}}\right) = \sin\left(\frac{pos}{10000^{\frac{2i}{d}}} + \frac{k}{10000^{\frac{2i}{d}}}\right) PE(pos+k,2i)=sin(10000d2ipos+k)=sin(10000d2ipos+10000d2ik) P E ( p o s + k , 2 i + 1 ) = cos ⁡ ( p o s + k 1000 0 2 i d ) = cos ⁡ ( p o s 1000 0 2 i d + k 1000 0 2 i d ) PE(pos+k, 2i + 1) = \cos\left(\frac{pos+k}{10000^{\frac{2i}{d}}}\right) = \cos\left(\frac{pos}{10000^{\frac{2i}{d}}} + \frac{k}{10000^{\frac{2i}{d}}}\right) PE(pos+k,2i+1)=cos(10000d2ipos+k)=cos(10000d2ipos+10000d2ik)根据三角函数的和角公式:
sin ⁡ ( a + b ) = sin ⁡ a cos ⁡ b + cos ⁡ a sin ⁡ b \sin(a + b) = \sin a \cos b + \cos a \sin b sin(a+b)=sinacosb+cosasinb cos ⁡ ( a + b ) = cos ⁡ a cos ⁡ b − sin ⁡ a sin ⁡ b \cos(a + b) = \cos a \cos b - \sin a \sin b cos(a+b)=cosacosbsinasinb因此可以得到
P E ( p o s + k , 2 i ) = sin ⁡ ( p o s 1000 0 2 i d ) cos ⁡ ( k 1000 0 2 i d ) + cos ⁡ ( p o s 1000 0 2 i d ) sin ⁡ ( k 1000 0 2 i d ) PE(pos+k, 2i) = \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \cos\left(\frac{k}{10000^{\frac{2i}{d}}}\right) + \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \sin\left(\frac{k}{10000^{\frac{2i}{d}}}\right) PE(pos+k,2i)=sin(10000d2ipos)cos(10000d2ik)+cos(10000d2ipos)sin(10000d2ik)

P E ( p o s + k , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i d ) cos ⁡ ( k 1000 0 2 i d ) − sin ⁡ ( p o s 1000 0 2 i d ) sin ⁡ ( k 1000 0 2 i d ) PE(pos+k, 2i + 1) = \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \cos\left(\frac{k}{10000^{\frac{2i}{d}}}\right) - \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \sin\left(\frac{k}{10000^{\frac{2i}{d}}}\right) PE(pos+k,2i+1)=cos(10000d2ipos)cos(10000d2ik)sin(10000d2ipos)sin(10000d2ik)线性函数的形式
可以看到 P E ( p o s + k , 2 i ) PE(pos+k, 2i) PE(pos+k,2i) P E ( p o s + k , 2 i + 1 ) PE(pos+k, 2i + 1) PE(pos+k,2i+1) 的结果都是 P E ( p o s ) PE(pos) PE(pos) sin ⁡ ( k 1000 0 2 i d ) \sin\left(\frac{k}{10000^{\frac{2i}{d}}}\right) sin(10000d2ik) cos ⁡ ( k 1000 0 2 i d ) \cos\left(\frac{k}{10000^{\frac{2i}{d}}}\right) cos(10000d2ik) 的线性组合。由于 sin ⁡ ( k 1000 0 2 i d ) \sin\left(\frac{k}{10000^{\frac{2i}{d}}}\right) sin(10000d2ik) cos ⁡ ( k 1000 0 2 i d ) \cos\left(\frac{k}{10000^{\frac{2i}{d}}}\right) cos(10000d2ik) 是固定值,所以我们可以将它们视为常数,从而使得整个表达式变成了 P E ( p o s ) PE(pos) PE(pos) 的线性函数。

得出结论:
对于任何固定的偏移量 k k k,都有:
P E p o s + k = f ( P E p o s ) PE_{pos+k} = f(PE_{pos}) PEpos+k=f(PEpos)其中 f f f 是一个线性函数。这证明了在 Transformer 的位置编码中,相对位置 P E p o s + k PE_{pos+k} PEpos+k 可以表示为 P E p o s PE_{pos} PEpos 的线性函数。

计算 P E p o s + k 与 P E p o s PE_{pos+k} 与PE_{pos} PEpos+kPEpos的内积

Dot ( P E p o s , P E p o s + k ) = ∑ i = 0 d / 2 − 1 P E ( p o s , 2 i ) ⋅ P E ( p o s + k , 2 i ) + P E ( p o s , 2 i + 1 ) ⋅ P E ( p o s + k , 2 i + 1 ) \text{Dot}(PE_{pos}, PE_{pos+k}) = \sum_{i=0}^{d/2-1} PE(pos, 2i) \cdot PE(pos+k, 2i) + PE(pos, 2i + 1) \cdot PE(pos+k, 2i + 1) Dot(PEpos,PEpos+k)=i=0d/21PE(pos,2i)PE(pos+k,2i)+PE(pos,2i+1)PE(pos+k,2i+1)
将内积展开为:
Dot ( P E p o s , P E p o s + k ) = ∑ i = 0 d / 2 − 1 [ sin ⁡ ( p o s 1000 0 2 i d ) sin ⁡ ( p o s + k 1000 0 2 i d ) + cos ⁡ ( p o s 1000 0 2 i d ) cos ⁡ ( p o s + k 1000 0 2 i d ) ] \text{Dot}(PE_{pos}, PE_{pos+k}) = \sum_{i=0}^{d/2-1} \left[ \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \sin\left(\frac{pos+k}{10000^{\frac{2i}{d}}}\right) + \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right) \cos\left(\frac{pos+k}{10000^{\frac{2i}{d}}}\right) \right] Dot(PEpos,PEpos+k)=i=0d/21[sin(10000d2ipos)sin(10000d2ipos+k)+cos(10000d2ipos)cos(10000d2ipos+k)]
根据 sin ⁡ ( a ) sin ⁡ ( b ) + cos ⁡ ( a ) cos ⁡ ( b ) = cos ⁡ ( a − b ) \sin(a) \sin(b) + \cos(a) \cos(b) = \cos(a - b) sin(a)sin(b)+cos(a)cos(b)=cos(ab)可得:
Dot ( P E p o s , P E p o s + k ) = ∑ i = 0 d / 2 − 1 cos ⁡ ( p o s + k 1000 0 2 i d − p o s 1000 0 2 i d ) = ∑ i = 0 d / 2 − 1 cos ⁡ ( k 1000 0 2 i d ) \text{Dot}(PE_{pos}, PE_{pos+k}) = \sum_{i=0}^{d/2-1} \cos\left(\frac{pos+k}{10000^{\frac{2i}{d}}} - \frac{pos}{10000^{\frac{2i}{d}}}\right)= \sum_{i=0}^{d/2-1} \cos\left(\frac{k}{10000^{\frac{2i}{d}}}\right) Dot(PEpos,PEpos+k)=i=0d/21cos(10000d2ipos+k10000d2ipos)=i=0d/21cos(10000d2ik)

结论

  • k k k 较小时,内积值较大,表示 P E p o s + k PE_{pos+k} PEpos+k P E p o s PE_{pos} PEpos 的相似度较高,相对位置较近。
  • k k k 较大时,内积值减小,表示相似度降低,相对位置较远。
  • c o s ( k ) = c o s ( − k ) cos(k)=cos(-k) cos(k)=cos(k),因此该方法无法区别方向。

通俗理解

参考文章
最简单直观的加入位置信息的方式就是使用1,2,3,4,…直接对句子进行位置编码(one-hot)。用二进制转化举个例子:
在这里插入图片描述
上表中维度0,维度1,维度2,维度3拼成的数字就是该位置对应的二进制表示。可以看到每个维度(每一列)其实都是有周期的,并且周期是不同的。具体来说,每个比特位的变化率都是不一样的,越低位的变化越快(越往右边走,变化频率越快),红色位置0和1每个数字会变化一次,而黄色位,每8个数字才会变化一次。这样就能够说明使用多个周期不同的周期函数组成的多维度编码和递增序列编码其实是可以等价的。这也回答了为什么周期函数能够引入位置信息。

同样的道理,不同频率的sin正弦函数和cos余弦函数组合,通过调整三角函数的频率,可以实现这种低位到高位的变化,这样就能把位置信息表示出来。

缺点

  • 位置编码是固定的,无法根据具体任务进行调整。
  • 固定的位置编码对序列长度有限制。在处理长序列时,正弦和余弦函数的频率可能不足以捕捉所有的位置信息,导致信息丢失。
  • 位置编码在训练阶段是静态的。这意味着在训练时确定的位置编码不适用于后续推理时的输入,尤其是推理序列长度大于训练序列长度。
http://www.15wanjia.com/news/175940.html

相关文章:

  • 婚纱摄影网络公司网站源码做网站需要什么按钮
  • 中国建设银行龙卡信用卡网站湘潭网站建设网站
  • 企业网站必须备案吗网站建设哪些模板号
  • 互联网信息服务 网站备案百度搜索引擎收录
  • 网站照片加水印做网站用什么字体
  • 食品安全网站建设成全视频免费观看在线看黄
  • 晋城建设局网站装潢公司网站模板
  • 网站绑定别名好吗有哪些网站建设方案
  • 投票活动网站怎么做网站建设推广语
  • 网站建设报价单 文库网站备案后的标识
  • 免费网页制作软件手机版网站优化方案 site ww
  • 绵阳哪个网站做外卖做的好wap视频网站建设难吗?
  • 好的免费个人网站网站开发+.net+开源
  • 深圳移动网站建设公司排名东莞网站建设dgjcwl
  • 德州网站建设商户网站建设公司
  • 2012服务器如何做网站国外大气网站设计
  • 郑州官网网站优化公司搜狗搜索引擎优化论文
  • 网站第三方登录怎么做做网站运营工资多少
  • 七台河北京网站建设深圳网页设计公司建设
  • 视频网站开发防止盗链市场营销主要学什么
  • 做装饰画的行业网站做外汇看新闻在什么网站看
  • 半岛官方网站下载黄冈网站建设设计
  • 网站建设需要懂什么语言网络舆情优化公司
  • 网站字体特效莱芜都市网二手
  • 黄山网站建设找哪家wordpress静态页
  • 国内免费推广网站艺术字logo设计在线生成
  • 青岛市黄岛区城市建设局网站漂亮公司网站源码打包下载
  • 网站介绍怎么写德阳房产网站建设
  • 企业建站公司报价浙江网站建设公司地址
  • 招聘网站开发的要求网站空间一定要买吗