当前位置: 首页 > news >正文

手机管理网站模板下载软件宁波seo优化费用

手机管理网站模板下载软件,宁波seo优化费用,做简单的动态网站教程,html家乡网页设计代码前言 本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底),但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之 …

前言

本文一开始是属于此文《GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底),但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之

当时的前言是

具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且所有点我都做了详尽而细致的解读,点击下表中对应的文字即可阅读,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接


有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线,比如

  • 17-20年,以BERT、GPT为代表的预训练-微调模式
    且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
  • 途中经历过GPT3.5的RLHF微调
  • 及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类

你说,是不是有趣?

    第一部分 从训练数据来源、动作预测策略、模型训练方法

    1.1 训练数据来源

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第一大块 训练数据来源人类行为视频数据相当于互联网上大规模的视频数据,比如YouTube上的比如DexMV、MimicPlay、字节GR2
    开源数据需要一定的整合比如Open X-Embodiment等
    仿真数据毕竟仿真环境中训练base model,最后真实环境中微调,是常见训练方式1 英伟达的Isaac Sim:整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
    2 Google的MuJoCo
    人工收集手持夹爪,收集方便umi/fastumi
    动作捕捉,精度较高dexcap
    遥操,精度很高主从机械臂遥操数据ALOHA
    VR遥操Open-television

    1.2 动作预测策略

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第二大块 动作预测策略iDP3(改进的3D diffusion policy)可落地在人形机器人上斯坦福iDP3
    3D diffusion policy将3D视觉表示与扩散策略3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
    Diffusion Policy(还可基于点云)diffusion policy基于扩散模型UMI/dexcap
    Diffusion Transformer(DiT)基于Diffusion Transformer(DiT)改造

    ​清华RDT

    预测与动作扩散器PAD:通过联合去噪同时预测未来图像和动作Prediction with Action: Visual Policy Learning via Joint Denoising Process

    ACT

    ACT基于Transformer

    Mobile ALOHA

    基于下一个token预测技术预测动作token基于类似下个token预测策略
    伯克利Digit

    1.3 模型训练方法

    1.3.1 非Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    直接真实环境中RL开训,摒弃仿真真实环境中得到的RL数据微调VLM + 机器人动作微调:RL训练运行创建的数据集,可以用于二次训练,代替人类提供的例子(效果如何 待验证)UC伯克利的Sergey Levine,于24年年底在DAI 2024上的演讲:RLDG——Reinforcement Learning Distilled Generalist
    结合视觉和人类示教与纠正的RL方法,目前暂时还是小众赛道UC伯克利的HIL-SERL
    RL仿真 + VR遥操估计人类动作 + 人类动作到人形机器人的重定向凡是人形,必涉及到基于AMASS数据集(包括SMPL-X做参数化建模)做人形运动目标的重新定位 + sim to real(师生学习/策略蒸馏) + VR遥操
    OmniH2O
    RL仿真训本体 + RGB遥操部署Retargeting、Sim-to-Real、RGB Real-time遥控H2O:通过重定向清除不可行的动作,然后仿真训练,最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
    仿真中训小脑HST(仿真中训练好之后,RGB遥操部署)
    且其真实中训大脑HIT
    HumanPlus:RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
    静态数据训练 + 人类示教比如通过示范数据做行为克隆,更结合前身ALOHA的静态数据做协同训练Mobile ALOHA

    1.3.2 Robotics VLM与VLA的训练方法

    2024年具身前沿模型/策略大汇总说明补充备注典型代表

    第三大块

    模型训练方法

    预训练的VLA先对VLM基于机器人数据(开源OXE + 自采,或只开源OXE)做二次预训练(模仿人类)变成VLA,再真实环境中微调VLA1 π0:先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA,然后针对所需任务进行微调
    2 RT2和OpenVLA:只在开源OXE上做的预训练
    不用预训练的VLA其考虑到预训练成本较高TinyVLA
    预训练的Robotics VLM针对VLM的二次预训练,通过开源OXE训练VLM变成Robotics VLMOcto:在Open X-Embodiment数据集上进行预训练
    不预训练的Robotics VLM没有针对VLM的二次预训练,而是直接机器人数据微调VLM变成Robotics VLM字节RoboFlamingo:使用简单、少量的微调就可以把 VLM 变成 Robotics VLM

    第二部分 Robotics VLM和VLA中的动作预测

    2.1 Robotics VLM和VLA中的动作预测

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第四大块 Robotics VLM和VLA中的动作预测专门的action head

    基于LSTM

    Robotics VLM:字节RoboFlamingo
    基于diffusion modelRobotics VLM:Octo
    VLA:TinyVLA(diffusion-based head)
    基于流匹配VLA:π0 (流匹配微调VLM)
    基于Diffusion Transformer(DiT)VLA:CogACT(相比Octo的头 更大)
    基于下一个token预测技术预测动作token对于离散化token动作表示,即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个VLA:RT-2OpenVLA(相当于RT-2开源版)

    第三部分 借鉴大语言模型的发展之路

    3.1 借鉴大语言模型的发展之路

    2024年具身前沿模型/策略大汇总说明补充备注典型代表
    第五大块 借鉴大语言模型的发展之路预训练-微调模式中把模型搞大需要架构、数据双双具备RDT、π0
    把RLHF引入近具身通过偏好对齐提升机器人策略的泛化能力GRAPE
    把CoT引入具身让具身模型学会逐步推理ECoT
    让VLM充当机器人大脑,做顶层任务规划机器人基础模型(相当于大脑):用于整体任务规划
    机器人操控模型(相当于小脑):用于精确控制
    Figure 01、清华ViLA、CoPa
    让大模型来打辅助:推理、规划样样行基于VLM模型GPT-4o和关系关键点约束ReKep
    VLM解释人类演示视频,并为机器人生成任务计划、代码纽约大学:VLM See, Robot Do
    结合「GPT4V的open-world vision能力」和重定向OKAMI

    更多可以查看此文《RoboVLM——通用机器人策略的VLA设计哲学:如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据》

      http://www.15wanjia.com/news/6065.html

      相关文章:

    1. 网站空间和流量网站制作app
    2. 温泉网站建设seo网络推广案例
    3. 小榄镇做网站公司google网页搜索
    4. 渠道合作一站式平台自己开网站怎么开
    5. 网站制作程序腾讯竞价广告
    6. 长春公司网站建设网站运营策划书
    7. 专业的饰品行业网站开发网站内部优化有哪些内容
    8. 杭州市工程建设安全管理社会网站精准客户运营推广
    9. 做网站需要提供哪些资料优化的定义
    10. 珠海做网站优化的公司美业推广平台
    11. 网站建设哪个比较好国家税务总局网
    12. 做平台好还是做网站好大数据营销的案例
    13. 我想做个网站怎么做营销团队公司
    14. 辽宁省建设教育协会网站seo内链优化
    15. 网站建设文件夹布局电脑培训学校课程
    16. 批量上传网站产品互联网营销推广
    17. 卢湾区网站建设制作今日资讯最新消息
    18. 新手如何自学编程扬州seo推广
    19. 潍坊大宇网络网站建设nba今日数据
    20. 怎么创立自己的网站网络推广有哪些渠道
    21. wordpress站点统计插件搭建网站基本步骤
    22. div css企业网站seo网站优化收藏
    23. 怎样做外国石雕产品网站百度seo排名优化技巧分享
    24. 完整网站开发唐山建站公司模板
    25. dreamweaver做的网站百度直播平台
    26. 广州网站改版 网站建设网店推广常用的方法
    27. 承德网站建设服务网络营销公司是做什么的
    28. 住房和城乡建设部网站八大员网站的收录情况怎么查
    29. 网站收录怎么弄哪些平台可以发布软文
    30. 网站上传工具有什么武汉网站建设公司