当前位置: 首页 > news >正文

企业形象网站建设网站 开发 周期

企业形象网站建设,网站 开发 周期,网页设网页设计公司,医疗图片做网站图片这里写自定义目录标题 参考资料 Safe Reinforcement Learning环境算法CPO 2017 ICMLPCPO 2019 ICLRFOCOPS 2020 NIPSCRPO 2021 ICMLCUP 2022 NIPS TRPO 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎 参考资料 Safe Reinforcement Learning 安全/约束强化学…

这里写自定义目录标题

  • 参考资料 Safe Reinforcement Learning
  • 环境
  • 算法
    • CPO 2017 ICML
    • PCPO 2019 ICLR
    • FOCOPS 2020 NIPS
    • CRPO 2021 ICML
    • CUP 2022 NIPS

TRPO
如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎

参考资料 Safe Reinforcement Learning

安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06

Safe RL 的一点点总结编辑于 2021-04-25
1.CPO
2.RCPO
3.CPPO-PID
4.SafeLayer+DDPG
5.Safety-Gym

【安全强化学习· 一】Safe Reinforcement Learning(一)2020

Constrained reinforcement learning
constrained markov decision processes

PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
PKU-MARL/OmniSafe github
PKU-MARL/OmniSafe 作者就是CUP的作者
OpenAI/safety-starter-agents github

环境

safety-gym openai
Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.

safety-gymnasium
Bullet-Safety-Gym

算法

算法算法类型时间会议引用量
CPO约束策略优化CPO-based 二阶2017ICML1214
RCPO奖励约束策略优化Primal-Dual2018ICLR452
PCPO基于投影的约束策略优化CPO-based 二阶2019ICLR188
FOCOPS策略空间中的一阶约束优化CPO-based 一阶2020NIPS87
CRPO约束修正策略优化Lagrange2021ICML84
CUP约束更新投影CPO-based 一阶2022NIPS18

王雪松, 王荣荣, 程玉虎. 安全强化学习综述. 自动化学报, 2023, 49(9): 1813−1835 doi: 10.16383/j.aas.c220631

安全强化学习综述
2.2.2 信赖域法
约束型策略优化 (Constrained policy optimization, CPO)
基于投影的约束策略优化 (Projection-based constrained policy optimization, PCPO)
一阶约束优化方法 (First order constrained optimization in policy space, FOCOPS)
惩罚近端策略优化 (Penalized proximal policy optimization, P3O)
约束修正策略优化 (Constraint-rectified policy optimization, CRPO)
约束变分策略优化 (Constrained variational policy optimization, CVPO)

CPO 2017 ICML

Constrained Policy Optimization 上海交通大学 工学硕士
CPO omnisafe

PCPO 2019 ICLR

PCPO omnisafe

FOCOPS 2020 NIPS

FOCOPS slideslive
FOCOPS slideslive 短
FOCOPS omnisafe

CPO的问题
从当前策略获取样本轨迹时产生的错误。
泰勒近似引起的近似误差。
使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。

FOCOPS的优势
实现简单,只使用一阶近似。
简单的一阶法避免了泰勒法和共轭法引起的误差。
在实验中表现优于CPO。
不需要任何恢复步骤。

Two-stage Policy Update

CRPO 2021 ICML

知乎 钟典鱼
omnisafe代码
CRPO slideslive
CRPO slideslive 短
在这里插入图片描述
在这里插入图片描述

CUP 2022 NIPS

github代码
omnisafe代码git
omnisafe代码

强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24

将GAE引入推导,得出了更紧的上下界
在具体的实现上做了改变,使得每次更新对计算资源的需求更小。

http://www.15wanjia.com/news/168194.html

相关文章:

  • 电子招标投标平台网站建设西安做网站商城的公司
  • 自助网站建设费用灵犀科技高端网站建设
  • wordpress get_term_linkseo点击工具
  • 惠州城乡住房建设厅网站写作的网站哪个好
  • 网站建设祥云平台网站建设招标2017
  • 四川建设厅网上查询网站首页哪个网站做汽车分期
  • 素材图库网站源码wordpress模板游戏推广
  • wordpress本地环境转移wordpress. 外贸seo
  • 学生做兼职去哪个网站国家级示范校建设专题网站
  • 商城类网站建设多少钱免费下载ps素材网站
  • 如何用asp做网站贷款网站织梦模板源码
  • 自己做网站能宣传自己的产品吗服装网站建设论文
  • 佛山网站设计师佛山网络排名优化
  • 房地产网站建设分析昆明网站开发公司哪家好
  • 网站建设要写代码吗网站制作aqq
  • 公司网站建设成都东莞网站优化公司哪家好
  • 深圳海洋网络做网站网站访客qq获取系统 报价
  • 兰州市城市建设设计院官网广西seo网站
  • 做网站网站的人是怎么被抓的网站建设管理措施
  • wordpress做门户网站wordpress资源下载页面
  • 手机网站跳出率低如何给WordPress网站更换域名
  • 网站免费响应建设wordpress 后台登陆不进去
  • 企业网站 域名注册公司介绍模板简短
  • 福州医院网站建设公司平面设计师的出路
  • 如何做简单视频网站wordpress防止频繁访问
  • 网站图片设置软件重庆大坪网站建设
  • 鞍山企业网站建设dw个人网站制作
  • 小型旅游网站建设方案网站高速下载如何做
  • 企业管理顾问东莞网站建设wordpress手机版网页
  • 为什么做的网站别的浏览器打不开怎么办做网站需要哪些费用支出