当前位置: 首页 > news >正文

建站前期准备广州网站推广联盟

建站前期准备,广州网站推广联盟,做网站苏州,图书馆网站制作前言 本文内容来自于南京大学郭宪老师在博文视点学院录制的视频,课程仅9元地址,配套书籍为深入浅出强化学习 编程实战 郭宪地址。 正文 我们发现多臂赌博机执行一个动作之后,无论是选择摇臂1,摇臂2,还是摇臂3之后都会返…

前言

      本文内容来自于南京大学郭宪老师在博文视点学院录制的视频,课程仅9元地址,配套书籍为深入浅出强化学习 编程实战 郭宪地址。

正文

      我们发现多臂赌博机执行一个动作之后,无论是选择摇臂1,摇臂2,还是摇臂3之后都会返回原来的状态,也就是说它的状态并没有改变,而右边的寻金币游戏,从1到2,智能体执行动作之后位置(状态)发生了变化,而强化学习就是寻找当前状态下最优的动作,或者说不同状态下最优动作合集(策略)。

从下图右可以看出,P和R都和s,a有关系,无模型就是因为缺P和R。

     

       实际应用中,对于游戏一般用截取的图像信息作为s,但通常不能只用一帧图像作为s,比如说在大小球的游戏中,一帧图像,无法判断小球移动方向和球速,最起码要两帧,在实际应用中,为了提高精确度,一般用四帧图像作为s。AlphaGo中用过去八手双方棋局作为状态。

 动作的定义

策略的定义:策略就是给定状态s时,动作集上的分布,比方说,找金币,智能体在状态5时,采用确定性策略,此时向西走概率为1,向其他方向为0,为改状态下的动作概率分布。

值函数定义:就是在策略Π下,智能体从状态s出发,用采用策略Π的累计回报的期望,简单理解,从状态s出发,不同的选择函数(策略,该策略是动作选择策略),会选择不同的动作,转移到不同的状态,最后会找到很多条路径(s,a),选则累计回报最大的路径。

值函数和行为值函数的区别:值函数只和s有关,行为值函数和s,a相关。但两者都是对策略Π的度量。

我们看一下寻找梦中的他游戏的环境设置,

状态空间:对下图进行10×10的网格划分也就是说会有100个不同的状态空间,所以最多会遍历100步,

动作空间:有上下左右四个选择

状态转移概率:此处主要说一下,鸳鸯在碰到障碍物时,不会移动到障碍物位置,而是继续保持原本状态,同样在即将出界时,也是保持原本状态。比方说,向东连续走两个格,第三个格有障碍物,不会移动到障碍物位置,而是保持原本位置不变。

立即回报:碰到障碍物时回报为-1,找到他时回报为1,正常移动回报为0

策略表示:使用了词典函数(待理解)

值函数:设置了10×10的矩阵,对应一百个表格(属于表格型强化学习)

环境渲染用到了pygame包,使用时共三个步骤

1.获取当前图片所在目录

2.获取图片文件名

3.下载图片,并转换成surface对象

最后要继续使用pygame绘制窗口

1.display.set_mode:绘制窗口幕布

2.blit:图片显示在窗口中

3.display.update:幕布更新函数

代码可从视频链接自取

参考文献

1.深入浅出强化学习 编程实战 郭宪

2. 博文视点学院

http://www.15wanjia.com/news/31590.html

相关文章:

  • 商务网站开发文档谷歌关键词热度查询
  • 蚌埠市做家教网站无锡seo公司找哪家好
  • wordpress怎装模板seo推广优化方案
  • 宁波网站建设公司费用价格知乎推广合作
  • 公司做网站好吗百度百度一下你就知道主页
  • 做的网站如何全屏外链官网
  • 网站开发学院网站外链发布平台
  • 做网站哪种域名好记正规营销培训
  • 网站建设公司怎么做业务优化百度seo
  • 哈尔滨网站建设费用霸屏seo服务
  • 深圳建设银行官方网站上海高端seo公司
  • ps设计网站步骤关键词排名优化易下拉技术
  • 企业网站维护工作内容如何在百度上发广告
  • discuz做地方门户网站北京网络营销招聘
  • 鹤壁做网站重庆seo网站系统
  • 网站做301跳转百度竞价推广效果好吗
  • 烟台 网站建设互联网广告价格
  • 做网站原创要多少钱安卓优化大师下载安装到手机
  • html5网站首页代码做引流推广的平台600
  • 乐陵网站建设如何进行网络营销推广
  • 哈密网站建设今日新闻摘抄十条简短
  • 设计手机网站百度的推广广告
  • 移动网站适配南宁seo推广服务
  • 新闻网站开发模块网络销售平台有哪些软件
  • 企业服饰网站模板电商运营怎么自学
  • 建筑网站首页提交链接
  • 三层架构做网站还是系统在线种子资源库
  • 网站不需要什么备案搜狗推广登录平台官网
  • 网站顶部导航网站媒体推广
  • 成都网站制作创新互联软文范例大全800字