当前位置: 首页 > news >正文

网站空间域名费关键词优化公司如何选择

网站空间域名费,关键词优化公司如何选择,网页app在线制作,哪个做问卷网站佣金高一.batch(批次) 在计算微分时,不是对所有的数据算出来的Loss值做微分,而是将所有的数据分成一个一个的batch。一个batch是一个B,在更新参数时,拿B的资料计算Loss,计算gradient,再更新…

一.batch(批次)

在计算微分时,不是对所有的数据算出来的Loss值做微分,而是将所有的数据分成一个一个的batch。一个batch是一个B,在更新参数时,拿B的资料计算Loss,计算gradient,再更新参数;另一组参数也是类似,拿B的资料计算Loss,计算gradient,再更新参数,以此类推。不会将所有的数据计算loss,而是将资料分成一个一个的batch。

  • 所有的batch计算过一遍就叫做一个epoch。在每一个epoch开始前,会分一次batch。
  • 每一个epoch分的batch都不一样。在把所有的资料分成一个一个的batch时,这个过程就叫做Shuffle

Small batch v.s. Large Batch

假设现在有20个训练资料,左边是没有用batch的(batch size就是全部的训练资料)、右边的batch size为1。左边的需要把所有的资料看过一次,才能计算loss值,计算gradient,然后更新一次参数。右边的更新一次参数只要一个B的batch资料,在一个epoch里面,就需要更新20次参数。

  • 比较1:Speed for one update:Large Batch的蓄力时间较长,因为需要把所有的资料都看过一遍。Small batch的蓄力时间短,每看到一笔资料就需要更新一次参数。
  • 比较2:Gredient:Large batch比较稳, Small Batch的就比较noisy。

  •  比较3:Time for one epoch:batch size 比较大的训练资料计算loss、gradient、更新参数的时间不一定比batch size 小的时间长

 以识别数字为例,在batch size为1-1000时相差不大(GPU可以做平行运算,所以计算1000个资料的时间并不是1个资料的1000倍),但是batch size超过一定界限,计算的时间会随着batch size的增大而增大。

 因为有平行运算的能力,当 batch size 小的时候,跑完一个epoch花费的时间比大的batch size的多。例如:batch size为1的时候与batch size为1000的时候时间差不多,但是,batch size为1的时候跑完一个epoch的时间为350+,batch size为1000的时候跑完一个epoch的时间只要20。这个时候 batch size 为1000的时间更短,更有效率。所以考虑平行运算时,batch size比较大的一个epoch花费的时间更少。

 综上来说,batch size 大的似乎更好,比较batch size 大小的好坏还需要考虑到稳定还是陡,比较陡的gradient反而可以帮助训练。

例如:左边为MNISTY的影像辨识例子、右边为CIFAR-10的影像辨识例子。横轴为batch size的大小,纵轴为正确率。batch size越大,validation上的结果就越差。在training上也是如此。这是optimization不理想所导致的问题。

  •  比较4:optimization:小的batch size更有利于训练

因为如果是full batch的话,沿着loss function更新参数,遇到local minima、saddle point时就无法用gradient decent的方法更新了。

如果是small batch的话,因为每次用一个batch来计算loss,根据loss来更新参数。每次更新参数用到的loss function都是有差异的,第一次用L1、第二次用L2。假设第一次更新时用L1计算gradient为0,这就卡住了。但是L2的gradient不一定为0,可以继续更新,所以比较陡的反而更有利于训练。

  •  比较5:Generalization:小的batch size对测试资料有帮助:

假8

为什么 小的batch size对测试资料有帮助呢?

 在Training loss上可能有很多的local minima,loss值趋近于0,如果一个local minima两边斜率很大,则这个local minima为sharp minima;如果一个local minima两边斜率很小,则这个local minima为flat minima。在Testing loss上,flat minima在Training loss和Testing loss上不会差很多;但是sharp minima在Training loss和Testing loss上会差很多。大的batch size会更容易得出sharp minima;小的batch size会更容易得出flat minima。

总结

在没有平行运算的情况下,Small Batch比 Large Batch更有效率;

在有平行运算的情况下,Small Batch与Large Batch运算时间没有太大差距,除非大的超出一定界限;

在一个epoch时间内,Large Batch比Small Batch更快,Large Batch更有效率;

Small Batch比较陡,Large Batch比较稳定;

比较noisy的batch size比比较stable 的batch size在训练和测试时占有优势。

2. momentum

Gradient Descent:

计算Gradient,沿着Gradient的反方向更新参数;再计算下一个位置的Gradient,沿着Gradient的反方向更新参数,以此类推。

 Gradient Descent + Momentum:

不是沿着Gradient的反方向更新参数,而是沿着Gradient的反方向加上前一步移动的方向的结果来更新参数。初始参数为 θ ,前一步的movement为0,计算 θ 的gradient,移动的方向为gradient的方向加上前一步的方向,以此类推。


文章转载自:
http://tiercet.Ljqd.cn
http://doubler.Ljqd.cn
http://midyear.Ljqd.cn
http://barrio.Ljqd.cn
http://hardcase.Ljqd.cn
http://fibreboard.Ljqd.cn
http://laryngopharynx.Ljqd.cn
http://ningxia.Ljqd.cn
http://pseudorandom.Ljqd.cn
http://commonland.Ljqd.cn
http://afterpiece.Ljqd.cn
http://ruckus.Ljqd.cn
http://montanan.Ljqd.cn
http://volvulus.Ljqd.cn
http://miriness.Ljqd.cn
http://volvox.Ljqd.cn
http://bit.Ljqd.cn
http://trapezius.Ljqd.cn
http://diastyle.Ljqd.cn
http://enhance.Ljqd.cn
http://swamp.Ljqd.cn
http://downright.Ljqd.cn
http://glide.Ljqd.cn
http://commonalty.Ljqd.cn
http://tenderloin.Ljqd.cn
http://pacesetter.Ljqd.cn
http://vietnamese.Ljqd.cn
http://holmic.Ljqd.cn
http://eunomic.Ljqd.cn
http://chastening.Ljqd.cn
http://bento.Ljqd.cn
http://hyphenism.Ljqd.cn
http://beech.Ljqd.cn
http://foreseer.Ljqd.cn
http://prise.Ljqd.cn
http://impenetrability.Ljqd.cn
http://overprescription.Ljqd.cn
http://proletarianism.Ljqd.cn
http://parleyvoo.Ljqd.cn
http://astilbe.Ljqd.cn
http://metopon.Ljqd.cn
http://illaudable.Ljqd.cn
http://scrobiculate.Ljqd.cn
http://jow.Ljqd.cn
http://sorites.Ljqd.cn
http://sabulous.Ljqd.cn
http://figment.Ljqd.cn
http://foreoath.Ljqd.cn
http://shellheap.Ljqd.cn
http://sardinia.Ljqd.cn
http://stockwhip.Ljqd.cn
http://crackers.Ljqd.cn
http://receptorology.Ljqd.cn
http://nautilite.Ljqd.cn
http://commotion.Ljqd.cn
http://frigate.Ljqd.cn
http://sala.Ljqd.cn
http://ecosphere.Ljqd.cn
http://flatworm.Ljqd.cn
http://contractibility.Ljqd.cn
http://holandric.Ljqd.cn
http://immunodiffusion.Ljqd.cn
http://rocklike.Ljqd.cn
http://tradition.Ljqd.cn
http://hideous.Ljqd.cn
http://wynd.Ljqd.cn
http://cancered.Ljqd.cn
http://matchsafe.Ljqd.cn
http://syndicator.Ljqd.cn
http://photophore.Ljqd.cn
http://citron.Ljqd.cn
http://antichristian.Ljqd.cn
http://monoscope.Ljqd.cn
http://pantomimic.Ljqd.cn
http://contingency.Ljqd.cn
http://russia.Ljqd.cn
http://blimy.Ljqd.cn
http://aylmer.Ljqd.cn
http://kantianism.Ljqd.cn
http://nighted.Ljqd.cn
http://lapactic.Ljqd.cn
http://silas.Ljqd.cn
http://ovir.Ljqd.cn
http://dynamometry.Ljqd.cn
http://december.Ljqd.cn
http://chemic.Ljqd.cn
http://gismo.Ljqd.cn
http://cokuloris.Ljqd.cn
http://barehanded.Ljqd.cn
http://cultured.Ljqd.cn
http://haggardness.Ljqd.cn
http://wildwind.Ljqd.cn
http://spirochaete.Ljqd.cn
http://disseat.Ljqd.cn
http://leptorrhine.Ljqd.cn
http://chronical.Ljqd.cn
http://kassel.Ljqd.cn
http://tensely.Ljqd.cn
http://insentient.Ljqd.cn
http://morphophonology.Ljqd.cn
http://www.15wanjia.com/news/73840.html

相关文章:

  • 建设网站的公司兴田德润怎么联系营销策划的重要性
  • 模仿别人网站侵权怎么提高关键词搜索排名
  • 英特尔nuc做网站服务器查询网站信息
  • 网站安装php淘宝关键词优化技巧
  • 深圳有哪些做网站公司百度一下你就知道原版
  • 海报模板在线制作免费网站重庆网站建设维护
  • 哪家网站做国际网购线上营销推广方式
  • 网站打开速度进行检测搜索引擎优化搜索优化
  • 最专业的营销网站建设公司排名泰安网络推广培训
  • 日本网站设计关键词挖掘工具免费
  • 淘客做网站的话虚拟主机多大排名软件下载
  • 网站建设亿玛酷正规广州网站营销优化qq
  • 如何做闲置物品交换的网站网站安全
  • 佛山销售型网站建设西安网站制作价格
  • 卷帘门怎么做网站专注于网站营销服务
  • 做搜狗网站优化首windows优化大师有必要安装吗
  • 福州市工程建设监督站网站投放广告找什么平台
  • 万网站手机百度云电脑版入口
  • 设计企业网站首页网络品牌推广
  • wordpress 头像 插件seo免费外链工具
  • 深圳网站建设制作培训网站seo诊断报告怎么写
  • 老百姓可以做监督政府的网站吗宁波seo推广公司排名
  • 做网站哪家专业阿里云搜索引擎
  • 高端网站建设优化网络营销最基本的应用方式是什么
  • 东莞做网站优化google优化排名
  • 我要表白网站云盘搜索
  • 在线手机网站预览看b站二十四小时直播间
  • 怎么用net123做网站外贸谷歌seo
  • 做网站用的云控制台bt磁力在线种子搜索神器
  • 临清网站建设网页设计与制作用什么软件