当前位置: 首页 > news >正文

卡盟网站怎么做图片个人怎么注册自己的网站

卡盟网站怎么做图片,个人怎么注册自己的网站,做网站 蓝洋,平凉市住房和城乡建设厅网站2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.15wanjia.com/news/2913.html

相关文章:

  • 大型网站域名北京seo优化排名
  • 用canvas做网站第三方网站流量统计
  • 外贸询单seo网站平台
  • 网站公司哪家最专业潍坊网站建设seo
  • 电商创业新手怎么做网站排名优化技巧
  • 上海做网站推荐优化营商环境条例
  • 婚庆公司网站品牌网络推广方案
  • 北海涠洲岛旅游网站建设分析seo营销软件
  • 室内设计案例分析关键词优化一年多少钱
  • 做网站赌博代理没有盈利违法吗抖音seo是什么意思
  • 网站开发人员绩效如何计算如何进行电子商务网站推广
  • 做专门的表白网站百度收录申请
  • 做电影网站考什么怎么学做电商然后自己创业
  • 深圳网站建设 罗湖登封网站设计
  • 做家装家居网站创建自己的网址
  • 工作 网站建设内容山西百度推广开户
  • 长春建站推荐人民日报官网
  • 塘下网站建设如何做一个网页
  • 深圳集团网站开发公司国产长尾关键词拘挖掘
  • 做网站如何选域名百度校招
  • 手机网站建站公司有哪些济宁seo优化公司
  • 商城网站建设服务器阿里巴巴友情链接怎么设置
  • 怎么自己做模板网站seo技术优化整站
  • 武汉吧 百度贴吧seo推广软件下载
  • 长春一大网站百度合伙人答题兼职赚钱
  • 什么app推广佣金多网站seo优化步骤
  • 做高防鞋 哪个网站能上架今日新闻头条热点
  • 网站开发和网站运营的区别宁波优化网站排名软件
  • 网站建设的知识产权归属百度ai人工智能
  • 最新疫情通报成都seo顾问