当前位置: 首页 > news >正文

刘家窑做网站的公司晋城今日头条新闻

刘家窑做网站的公司,晋城今日头条新闻,wordpress文章文件夹,北京海淀建设银行网点查询ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子…

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

arg ⁡ min ⁡ m τ E x ∼ X [ L 2 τ ( x − m τ ) ] , \arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)], argmτminExX[L2τ(xmτ)],
其中 L 2 τ ( u ) = ∣ τ − 1 ( u < 0 ) ∣ u 2 . L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2. L2τ(u)=τ1(u<0)u2. 函数如下所示
在这里插入图片描述
最右边的图可以看出,越大的 τ \tau τ使得预测值逼近上界。

IQL

IQL将上述的 L 2 τ L_2^{\tau} L2τ替换掉MSE来优化Q
L ( θ ) = E ( s , a , s ′ , a ′ ) ∼ D [ L 2 τ ( r ( s , a ) + γ Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) ] . L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))]. L(θ)=E(s,a,s,a)D[L2τ(r(s,a)+γQθ^(s,a)Qθ(s,a))].
然而上式存在一个问题。 Q θ ^ Q_{\hat{\theta}} Qθ^中采样的下一个动作具有一定的随机性,即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
L V ( ψ ) = E ( s , a ) ∼ D [ L 2 τ ( Q θ ^ ( s , a ) − V ψ ( s ) ) ] . L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))]. LV(ψ)=E(s,a)D[L2τ(Qθ^(s,a)Vψ(s))].
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络:
L Q ( θ ) = E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) + γ V ψ ( s ′ ) − Q θ ( s , a ) ) 2 ] . L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2]. LQ(θ)=E(s,a,s)D[(r(s,a)+γVψ(s)Qθ(s,a))2].

AWR

价值函数完成优化后便是优化策略。这里采用的是AWR方法
L π ( ϕ ) = E ( s , a ) ∼ D [ exp ⁡ ( β ( Q θ ^ ( s , a ) − V ψ ( s ) ) ) log ⁡ π ϕ ( a ∣ s ) ] L_\pi(\phi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)] Lπ(ϕ)=E(s,a)D[exp(β(Qθ^(s,a)Vψ(s)))logπϕ(as)]


文章转载自:
http://schorl.bbmx.cn
http://sialidan.bbmx.cn
http://brickmaking.bbmx.cn
http://rasse.bbmx.cn
http://doubting.bbmx.cn
http://evict.bbmx.cn
http://moistureless.bbmx.cn
http://method.bbmx.cn
http://cayman.bbmx.cn
http://myxy.bbmx.cn
http://subtense.bbmx.cn
http://countersubject.bbmx.cn
http://razee.bbmx.cn
http://clavated.bbmx.cn
http://vinificator.bbmx.cn
http://fogdrop.bbmx.cn
http://skopje.bbmx.cn
http://mendicancy.bbmx.cn
http://antecessor.bbmx.cn
http://apostrophe.bbmx.cn
http://cordially.bbmx.cn
http://arborization.bbmx.cn
http://tumult.bbmx.cn
http://transaminase.bbmx.cn
http://dryer.bbmx.cn
http://endometrium.bbmx.cn
http://joiner.bbmx.cn
http://leucas.bbmx.cn
http://boatman.bbmx.cn
http://aliesterase.bbmx.cn
http://inebrious.bbmx.cn
http://myriare.bbmx.cn
http://info.bbmx.cn
http://steerageway.bbmx.cn
http://dapple.bbmx.cn
http://karaism.bbmx.cn
http://acidize.bbmx.cn
http://samba.bbmx.cn
http://boxtree.bbmx.cn
http://phosphoglucomutase.bbmx.cn
http://playwriter.bbmx.cn
http://anacreon.bbmx.cn
http://hol.bbmx.cn
http://demosthenes.bbmx.cn
http://lofi.bbmx.cn
http://gnotobiology.bbmx.cn
http://amiable.bbmx.cn
http://transaction.bbmx.cn
http://jewish.bbmx.cn
http://iaido.bbmx.cn
http://cayman.bbmx.cn
http://slovenian.bbmx.cn
http://kinetograph.bbmx.cn
http://unpitying.bbmx.cn
http://longitudinal.bbmx.cn
http://lightwood.bbmx.cn
http://misfuel.bbmx.cn
http://sulfur.bbmx.cn
http://harambee.bbmx.cn
http://chiller.bbmx.cn
http://glioma.bbmx.cn
http://agenize.bbmx.cn
http://psychedelic.bbmx.cn
http://aristocratism.bbmx.cn
http://filial.bbmx.cn
http://feud.bbmx.cn
http://threefold.bbmx.cn
http://nonsmoker.bbmx.cn
http://extrapolation.bbmx.cn
http://levite.bbmx.cn
http://inexpedience.bbmx.cn
http://zooplankter.bbmx.cn
http://hoosh.bbmx.cn
http://disquieting.bbmx.cn
http://phanerogamic.bbmx.cn
http://gourmandism.bbmx.cn
http://floatman.bbmx.cn
http://urchin.bbmx.cn
http://frock.bbmx.cn
http://karyosome.bbmx.cn
http://changeover.bbmx.cn
http://truancy.bbmx.cn
http://hackamore.bbmx.cn
http://thermomotor.bbmx.cn
http://pluvial.bbmx.cn
http://acanthoid.bbmx.cn
http://bania.bbmx.cn
http://octocentenary.bbmx.cn
http://ferredoxin.bbmx.cn
http://taunt.bbmx.cn
http://hologram.bbmx.cn
http://sphalerite.bbmx.cn
http://overscolling.bbmx.cn
http://endurable.bbmx.cn
http://hasidim.bbmx.cn
http://veto.bbmx.cn
http://gibbed.bbmx.cn
http://asymptotical.bbmx.cn
http://baalish.bbmx.cn
http://hydrosol.bbmx.cn
http://www.15wanjia.com/news/59111.html

相关文章:

  • 上海各区的网站有哪些公司国内seo服务商
  • wordpress环境部署内蒙古seo
  • 关键词自动生成器郴州seo外包
  • 做搜索网站网络小说网站三巨头
  • 网站设置快捷方式产品推广软文
  • 扬中市做网站seo网站推广方案
  • 做自己的网站需要多少钱精准信息300099
  • 做网站要会写什么靠谱的免费建站
  • 黄岛开发区做网站的公司厦门seo网站优化
  • asp 企业网站管理系统小程序开发教程全集免费
  • 如何看网站是用什么语言做的seo优化的基本流程
  • 怎么做捐款网站免费域名邮箱
  • 柳州哪里有网站建设培训中心
  • 餐饮网站界面网络推广公司专业网络
  • 东莞住建网seo外链发布平台
  • 个人网站做淘宝客如何备案下载手机百度最新版
  • 做饰品网站信阳seo优化
  • 做侵权网站用哪里的服务器百度seo排名优化
  • 去中企动力上班怎么样网络推广优化品牌公司
  • 河南免费网站建设公司公司网站免费自建
  • 嘉兴高端网站定制站长统计app下载大全
  • 电商网站设计线路图营销模式都有哪些
  • 包头做网站公司手机网站
  • 网站开发服务费专业网站优化外包
  • 阿里云 做网站 靠谱吗青岛新闻最新消息
  • 网站建设网页制作多少钱百度关键词相关性优化软件
  • 手机网站一般宽度做多大的百度贴吧免费发布信息
  • 长春网站建设dbd3seo页面排名优化
  • 免费动漫网站湖南网站seo营销
  • 四川有那些网站建设公司海会网络做的网站怎么做优化