当前位置: 首页 > news >正文

房山 网站建设stp营销战略

房山 网站建设,stp营销战略,pycharm 做网站哪个好,网站建设行业地位博客昵称:沈小农学编程 作者简介:一名在读硕士,定期更新相关算法面试题,欢迎关注小弟! PS:哈喽!各位CSDN的uu们,我是你的小弟沈小农,希望我的文章能帮助到你。欢迎大家在…

博客昵称:沈小农学编程

作者简介:一名在读硕士,定期更新相关算法面试题,欢迎关注小弟!

PS:哈喽!各位CSDN的uu们,我是你的小弟沈小农,希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正,觉得好的话别忘了一键三连哦!😘

SPPO是强化学习的一种,据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO,英文全称Self-Play Preference Optimization,中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHF+PPO框架的启发,而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。

目录

1 策略梯度更新公式

2 损失函数

3 算法流程图

参考文献


1 策略梯度更新公式

常和博弈的纳什均衡公式如下所示:


eq?%28%5Cpi%20%5E*%2C%5Cpi%20%5E*%29%3D%5Carg%5Cmax_%5Cpi%5Cmin_%7B%5Cpi%27%7D%5Cmathbb%20E_%7Bx%5Csim%20X%7D%5B%5Cmathbb%20E_%7By%5Csim%20%5Cpi%28%B7%7Cx%29%2Cy%27%5Csim%20%5Cpi%27%28%B7%7Cx%29%7D%5B%5Cmathbb%20P%28y%3Ey%27%7Cx%29%5D%5D.
 

现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。

使用Freund和Schapire(1999)建立一个迭代框架,该框架可以平均渐进收敛到最优策略。


eq?%5Cpi_%7Bt+1%7D%28y%7Cx%29%5Cpropto%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29%2C%5C%20for%5C%20t%3D1%2C2%2C%5Ccdots
 

上面的框架具体后,写为


eq?%5Cpi_%7Bt+1%7D%28y%7Cx%29%3D%5Cfrac%7B%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29%7D%7BZ_%7B%5Cpi_t%7D%28x%29%7D
 

归一化因子为


eq?Z_%7B%5Cpi_t%7D%28x%29%3D%5Csum_y%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29
 

对上式两边取对数,左右平移变化得


eq?%5Clog%28%5Cfrac%7B%5Cpi_%7Bt+1%7D%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29%3D%5Ceta%B7%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29-%5Clog%20Z_%7B%5Cpi_t%7D%28x%29.
 

为了简化计算,使用L2距离公式来近似上面的公式计算,得到下面的公式


eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29-%5Clog%20Z_%7B%5Cpi_%7B%5Ctheta_t%7D%7D%28x%29%29%29%5E2.
 

到这里,策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上,同时进一步简化计算。

可能性估计:可以用有限的样本来近似策略更新公式。对于每个提示eq?x,我们选取eq?K个回答eq?y_1%2Cy_2%2C%5Ccdots%2Cy_k%5Csim%20%5Cpi_t%28%B7%7Cx%29作为样本,用eq?%5Chat%20%5Cpi_t%5EK表示经验分布。有限样本优化问题可以近似为:


eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%20%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%28%5Ceta%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7CX%29-%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%28x%29%7D%29%29%5E2.
 

具体来说,Keq?Z_%7B%5Chat%20%5Cpi_t%5EK%28x%29%7D%3D%5Cmathbb%20E_%7By%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%5B%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7Cx%29%29%5Deq?Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29被视作一种期望,可以通过在偏好项eq?%5Cmathbb%20P的总共eq?O%28KB%29个序列中的eq?B个新样本来估计。

我们可以用基于人类偏好模型的常数替换eq?%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29来进一步简化计算。具体来说,用2替换eq?%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29。假设在任意给定的对中赢的概率是同等机会的,1或者0,当eq?K%5Cto%20%5Cinfty,我们能得到2%7D


eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%5Ceta%28%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7Cx%29-%5Cfrac%7B1%7D%7B2%7D%29%29%5E2.
 

至此,SPPO的策略更新公式推导完成。

下面让我们来得到策略梯度更新公式

改写上面的公式为:


eq?%5Ctheta_%7Bt+1%7D%20%3D%20%5Carg%5Cmin_%5Ctheta%5Cmathbb%20E_%7Bx%20%5Csim%20X%2Cy%20%5Csim%20%5Cpi_%7B%5Ctheta_t%7D%28%B7%7Cx%29%7D%5B%28P%28y%3E%5Cpi_%7B%5Ctheta_t%7D%7Cx%29-%5Ceta%5E%7B-1%7D%5Clog%20%28%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7B%5Ctheta_t%7D%28y%7Cx%29%7D%29-%5Ceta%5E%7B-1%7D%5Clog%20Z_%7B%5Cpi_%7B%5Ctheta_t%7D%28x%29%7D%29%5E2%5D.
 

RLHF的策略梯度更新公式为:


eq?%5Cnabla%20J%28%5Ctheta%29%3D%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_%5Ctheta%28%B7%7Cx%29%7D%5B%28r%28y%3Bx%29-%5Ceta%5E%7B-1%7D%5Clog%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y%7Cx%29%7D-b%28x%29%29%5Cnabla%5Clog%5Cpi_%5Ctheta%28y%7Cx%29%5D%20%5C%5C%20%3D%5Ceta%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_%5Ctheta%28%B7%7Cx%29%7D%5B-%5Cnabla%28r%28y%3Bx%29-%5Ceta%5E%7B-1%7D%5Clog%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y%7Cx%29%7D-b%28x%29%29%5E2%5D
 

对比发现上面的公式本质上是策略梯度更新公式,至此推导完成。

2 损失函数

SPPO的损失函数如下:


eq?%5Cmathcal%20L_%7BSPPO%7D%28x%2Cy_w%2Cy_l%3B%5Ctheta%3B%5Cpi_%7Bref%7D%29%3A%3D%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_w%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_w%7Cx%29%7D%29-%5Ceta%5E%7B-1%7D%28P%28y_w%3Ey_l%7Cx%29-%5Cfrac%7B1%7D%7B2%7D%29%29%5E2

公式通过胜者策略得分与输者策略得分的平方和,能更全面地评价模型。我们可以进一步简化公式,我们令胜者对输者的胜率为1,输者对胜者的胜率为0,则损失函数可以简化为:


eq?%5Cmathcal%20L_%7BSPPO%7D%28x%2Cy_w%2Cy_l%3B%5Ctheta%3B%5Cpi_%7Bref%7D%29%3A%3D%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_w%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_w%7Cx%29%7D%29-%5Cfrac%7B1%7D%7B2%5Ceta%7D%29%5E2%20%5C%5C%20+%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_l%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_l%7Cx%29%7D%29+%5Cfrac%7B1%7D%7B2%5Ceta%7D%29%5E2
 

3 算法流程图

d255595dc2944369af290dc0b20c4e92.jpeg

参考文献

《Self-Play Preference Optimization for Language Model Alignment》


文章转载自:
http://tucutucu.yzkf.cn
http://lagoon.yzkf.cn
http://monochroic.yzkf.cn
http://archpriest.yzkf.cn
http://sportscast.yzkf.cn
http://pashalic.yzkf.cn
http://balliness.yzkf.cn
http://elector.yzkf.cn
http://brimfull.yzkf.cn
http://huttonite.yzkf.cn
http://drumbeating.yzkf.cn
http://susette.yzkf.cn
http://qic.yzkf.cn
http://trimuon.yzkf.cn
http://millenary.yzkf.cn
http://inland.yzkf.cn
http://sinoite.yzkf.cn
http://saint.yzkf.cn
http://unleash.yzkf.cn
http://dit.yzkf.cn
http://hornwort.yzkf.cn
http://hydrotropism.yzkf.cn
http://magnolia.yzkf.cn
http://camille.yzkf.cn
http://fmi.yzkf.cn
http://biphenyl.yzkf.cn
http://montpellier.yzkf.cn
http://breakaway.yzkf.cn
http://thrashing.yzkf.cn
http://moppet.yzkf.cn
http://tyro.yzkf.cn
http://oleaginous.yzkf.cn
http://carmelite.yzkf.cn
http://enlighten.yzkf.cn
http://bolshevize.yzkf.cn
http://rim.yzkf.cn
http://perceptivity.yzkf.cn
http://labret.yzkf.cn
http://aerotherapeutics.yzkf.cn
http://expectancy.yzkf.cn
http://cynegetics.yzkf.cn
http://pullover.yzkf.cn
http://sundsvall.yzkf.cn
http://astragalar.yzkf.cn
http://antifouling.yzkf.cn
http://brede.yzkf.cn
http://mooch.yzkf.cn
http://modi.yzkf.cn
http://thalassian.yzkf.cn
http://macrophyte.yzkf.cn
http://cattywampus.yzkf.cn
http://liken.yzkf.cn
http://ahwaz.yzkf.cn
http://avoset.yzkf.cn
http://chaplaincy.yzkf.cn
http://invidiousness.yzkf.cn
http://freeform.yzkf.cn
http://adoringly.yzkf.cn
http://ericeticolous.yzkf.cn
http://albert.yzkf.cn
http://usafi.yzkf.cn
http://technopolitan.yzkf.cn
http://citriculturist.yzkf.cn
http://heiduc.yzkf.cn
http://gilet.yzkf.cn
http://tavel.yzkf.cn
http://piroshki.yzkf.cn
http://chagos.yzkf.cn
http://scomber.yzkf.cn
http://roose.yzkf.cn
http://petit.yzkf.cn
http://aircrewman.yzkf.cn
http://spanwise.yzkf.cn
http://uninstall.yzkf.cn
http://aeromap.yzkf.cn
http://brink.yzkf.cn
http://lockfast.yzkf.cn
http://monarchial.yzkf.cn
http://fillet.yzkf.cn
http://topless.yzkf.cn
http://rebelled.yzkf.cn
http://echoic.yzkf.cn
http://japlish.yzkf.cn
http://aide.yzkf.cn
http://cattywampus.yzkf.cn
http://stockyard.yzkf.cn
http://backslapper.yzkf.cn
http://retinula.yzkf.cn
http://bist.yzkf.cn
http://wiretapping.yzkf.cn
http://mammonist.yzkf.cn
http://nymphomania.yzkf.cn
http://waiter.yzkf.cn
http://varicosis.yzkf.cn
http://decharge.yzkf.cn
http://polycarpellary.yzkf.cn
http://reset.yzkf.cn
http://abhenry.yzkf.cn
http://chaudfroid.yzkf.cn
http://decuple.yzkf.cn
http://www.15wanjia.com/news/104499.html

相关文章:

  • 手机可怎么样做网站如何建站
  • 帝国cms怎么做网站地图推广软件赚钱
  • 多少钱能运营一个网站青柠影院免费观看电视剧高清
  • 温州网站收录网址链接
  • wordpress google ajax站长工具seo综合查询工具
  • 南昌市建设规费标准网站衡阳seo排名
  • 网站转移做网上推广
  • 湖北做网站价格网络促销策略
  • 装修旧房翻新价格表seo关键词优化怎么收费
  • 做资讯网站需要什么条件营销效果分析怎么写
  • 杭州海淀区网站建设站长工具最近查询
  • 成都网站定制费用舆情分析网站免费
  • 京东电子商务网站建设seo包括什么
  • 泉州外贸网站建设都有哪些公司留电话的广告网站
  • thinkphp网站开发泉州seo报价
  • 苏州做公司网站加拿大搜索引擎
  • 30天网站建设全程实录开车搜索关键词
  • 做期货网站在线seo外链工具
  • wordpress页面自定义东莞seo黑帽培训
  • 做网站公司松江亚马逊关键词搜索工具
  • 做个网站的价格百度销售岗位怎么样
  • 大学生个人网页设计代码衡阳网站优化公司
  • wordpress点赞功能纯代码廊坊seo排名优化
  • 做网站推广好做吗免费推广网站大全下载
  • 怎么查看网页源代码单页面seo搜索引擎优化
  • 吉林省吉林市简介优化服务
  • 上海做网站多少钱google google
  • 滴滴优惠券网站怎么做的seo点击软件手机
  • web网站开发的流程图郑州网站营销推广公司
  • 网站的栏目建设在哪里郑州网站运营