当前位置: 首页 > news >正文

wordpress 数字不连续优化关键词排名提升

wordpress 数字不连续,优化关键词排名提升,深圳网站策划,网站风格代码一、原因 神经网络梯度 假设现在有一个 层的神经网络,每层的输出为一个对输入作 变换的函数结果 用 来表示第 层的输出,那么有下列公式: 链式法则计算损失 关于某一层某个参数 的梯度: 注意到, 为向量&am…

一、原因

神经网络梯度

· 假设现在有一个 d 层的神经网络,每层的输出为一个对输入作 f_t 变换的函数结果

· 用 h^t 来表示第 t 层的输出,那么有下列公式:

h^t = f_t(h^{t-1})

· 链式法则计算损失 l 关于某一层某个参数 w_t 的梯度:

\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}

· 注意到,h^t 为向量,这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题:

· 假设每次的梯度为1.5,但随着神经网络的规模变大,往后传递过去可能就有 1.5^{100}=4*10^{17} 这么大,从而产生梯度爆炸。

· 假设每次的梯度为0.8,同样的道理,传递过去可能有 0.8^{100}=2*10^{-10} 这么小,从而使模型最后的变化幅度很小,出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是,当输入相对较大或者较小时,求导计算之后,每次向上传递的梯度会变得很小

· 累乘起来之后,这个值可能就会变得更小

可能造成的问题:

· 梯度值非常接近0,使得模型无法训练,每次训练改变幅度非常小

· 在神经网络较深时,对于底部层尤为严重

        · 反向传播时,顶部的训练可能较好,拿到的梯度较正常

        · 越到底部,梯度越小,底部层无法训练,使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1,小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下,得到下式

· 这时,h^{t-1} 与 w_t 相乘后再在ReLU函数里求导的结果就是0或1,那么每次传递的就是 w_t 转置值

· 如果中间层 d-t 很大,那么最后累乘的结果就会很大,最终导致梯度爆炸

可能造成的问题:

· 值超过上限(如16位浮点数,可能数值上溢)

· 对学习率非常敏感

        · 若学习率较大—大参数值—更大的梯度

        · 若学习率较小—训练效果小

        · 需要不断调整学习率

http://www.15wanjia.com/news/22568.html

相关文章:

  • 江苏城乡和住房建设厅网站定制网站和模板建站
  • 惠州网站建设 骏域网站建设外贸seo推广公司
  • 如何设立外贸网站病毒式营销案例
  • 网站图标素材广告网络营销
  • 做外汇网站代理商佛山市人民政府门户网站
  • vs和sql做购物网站百度关键词价格查询软件
  • 创意品牌型网站友情链接买卖
  • 企业文化vi设计seo网站外链平台
  • 网站哪家公司做的百度新闻
  • 网页设计培训机构推荐外贸网站推广seo
  • 华为开发者联盟厦门站长优化工具
  • 网站运营企业个人网站备案
  • 网站开发推荐书籍杭州疫情最新情况
  • 评级网站怎么做百度号码认证平台
  • 南宁百度网站建设网络推广图片大全
  • 注册公司需要什么证件和手续重庆关键词优化软件
  • 中国法院网站群建设百度有钱花人工客服
  • 想找人帮我做网站sem是做什么的
  • php企业网站建设论文windows优化大师卸载
  • 织梦手机网站制作教程灰色关键词排名代发
  • 老河口网站设计百度一下 官方网
  • wordpress 主题 速度快seo博客大全
  • 南京专业制作网站新手如何学seo
  • 修改网站源码连接数据库怎么做平台推广是做什么的
  • 一个空间怎么做两个网站 跳转推广营销方案
  • 做好产品策划的重要性信息流优化师工作内容
  • 深圳网站设计 建设元2023疫情最新情况
  • 网站建设能干什么chatgpt 网站
  • 网站备案的要求是什么情况百度推广费用多少
  • 网页制作与网站建设从入门到精通石家庄seo外包的公司