当前位置: 首页 > news >正文

国家电网交流建设分公司网站百度推广的定义

国家电网交流建设分公司网站,百度推广的定义,免费政府网站系统,武汉市委网信办网站背景: 目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这…

背景:

目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。

一、分布式训练

1.1 目前主流的大模型分布式训练主要包括两种:

  • 数据并行训练
  • 模型并行训练

二、DeepSpeed

DeepSpeed是由Microsoft提供的分布式训练工具,旨在支持更大规模的模型和提供更多的优化策略和工具。对于更大模型的训练来说,DeepSpeed提供了更多策略,例如:Zero、Offload等。

2.1 基础组件

分布式训练需要掌握分布式环境中的基础配置,包括节点变化、全局进程编号、局部进程编号、全局总进程数、主节点等。这些组件都跟分布式训练紧密相关,同时组件之间也有非常大的联系,例如通信联系等。

2.2 通信策略

既然是分布式训练,那机器之间必须要保持通信,这样才可以传输模型参数,梯度参数等信息。

DeepSpeed提供了mpi、gioo、nccl等通信策略

通信策略通信作用
mpi它是一种跨界点的通信库,经常用于CPU集群的分布式训练
gloo它是一种高性能的分布式训练框架,可以支持CPU或者GPU的分布式训练
nccl它是nvidia提供的GPU专用通信库,广泛用于GPU上的分布式训练

我们在使用DeepSpeed进行分布式训练的时候,可以根据自身的情况选择合适的通信库,通常情况下,如果是GPU进行分布式训练,可以选择nccl。

2.3 Zero(零冗余优化器)

Microsoft开发的Zero可以解决分布式训练过程中数据并行和模型并行的限制。比如: Zero通过在数据并行过程中划分模型状态(优化器、梯度、参数),来解决数据并行成可能出现内存冗余的情况(正常数据并行训练,模型全部参数是复制在各个机器上的);同时可以在训练期间使用动态通信计划,在分布式设备之间共享重要的状态变量,这样保持计算粒度和数据并行的通信量。

Zero是用于大规模模型训练优化的技术,它的主要目的是减少模型的内存占用,让模型可以在显卡上训练,内存占用主要分为Model StatesActivation两个部分,Zero主要解决的是Model States的内存占用问题。

Zero将模型参数分成三个部分:

状态作用
Optimizer States优化器在进行梯度更新的时候需要用到的数据
Gradient在反向转播过程中产生的数据,其决定参数的更新方向
Model Parameter模型参数,在模型训练过程中通过数据“学习”的信息

Zero的级别如下:

级别作用
Zero-0不使用所有类型的分片,仅使用DeepSpeed作为DDP
Zero-1分割Optimizer States, 减少4倍内存,通信容量和数据并行性相同
Zero-2分割Optimizer States和Gradients,减少8倍内存,通信容量和数据并行性相同
Zero-3分割Optimizer States、gradients、Parametes,内存减少与数据并行度呈线性关系。例如,在64个GPU(Nd=64)之间进行拆分将产生64倍的内存缩减。通信量有50%的适度增长
Zero-InfinityZero-Infinity是Zero-3的扩展,它允许通过使用 NVMe 固态硬盘扩展 GPU 和 CPU 内存来训练大型模型

2.4 Zero-Offload:

相比GPU,CPU就相对比较廉价,所以Zero-Offload思想是将训练阶段的某些模型状态放(offload)到内存以及CPU计算。

Zero-Offload不希望为了最小化显存占用而让系统计算效率下降,但如果使用CPU也需要考虑通信和计算的问题(通信:GPU和CPU的通信;计算:CPU占用过多计算就会导致效率降低)。

Zero-Offload想做的是把计算节点和数据节点分布在GPU和CPU上,计算节点落到哪个设备上,哪个设备就执行计算,数据节点落到哪个设备上,哪个设备就负责存储。

Zero-Offload切分思路:

下图中有四个计算类节点:FWD、BWD、Param update和float2half,前两个计算复杂度大致是 O(MB), B是batch size,后两个计算复杂度是 O(M)。为了不降低计算效率,将前两个节点放在GPU,后两个节点不但计算量小还需要和Adam状态打交道,所以放在CPU上,Adam状态自然也放在内存中,为了简化数据图,将前两个节点融合成一个节点FWD-BWD Super Node,将后两个节点融合成一个节点Update Super Node。如下图右边所示,沿着gradient 16和parameter 16两条边切分。

Zero-Offload计算思路:

在GPU上面进行前向和后向计算,将梯度传给CPU,进行参数更新,再将更新后的参数传给GPU。为了提高效率,可以将计算和通信并行起来,GPU在反向传播阶段,可以待梯度值填满bucket后,一遍计算新的梯度一遍将bucket传输给CPU,当反向传播结束,CPU基本上已经有最新的梯度值了,同样的,CPU在参数更新时也同步将已经计算好的参数传给GPU,如下图所示。

2.5 混合精度:

混合精度训练是指在训练过程中同时使用FP16(半精度浮点数)和FP32(单精度浮点数)两种精度的技术。使用FP16可以大大减少内存占用,从而可以训练更大规模的模型。但是,由于FP16的精度较低,训练过程中可能会出现梯度消失和模型坍塌等问题。

DeepSpeed支持混合精度的训练,可以在config.json配置文件中设置来启动混合精度(“fp16.enabled”:true)。在训练的过程中,DeepSpeed会自动将一部分操作转化为FP16格式,并根据需要动态调整精度缩放因子,来保证训练的稳定性和精度。

在使用混合精度训练时,需要注意一些问题,例如梯度裁剪(Gradient Clipping)和学习率调整(Learning Rate Schedule)等。梯度裁剪可以防止梯度爆炸,学习率调整可以帮助模型更好地收敛。

三、总结

DeepSpeed方便了我们在机器有限的情况下来训练、微调大模型,同时它也有很多优秀的性能来使用,后期可以继续挖掘。

目前主流的达模型训练方式: GPU + PyTorch + Megatron-LM + DeepSpeed

优势

  1. 存储效率:DeepSpeed提供了一种Zero的新型解决方案来减少训练显存的占用,它与传统的数据并行不同,它将模型状态和梯度进行分区来节省大量的显存;
  2. 可扩展性:DeepSpeed支持高效的数据并行、模型并行、pipeline并行以及它们的组合,这里也称3D并行;
  3. 易用性: 在训练阶段,只需要修改几行代码就可以使pytorch模型使用DeepSpeed和Zero。

参考:

1. http://wed.xjx100.cn/news/204072.html?action=onClick

2. https://zhuanlan.zhihu.com/p/513571706

作者:京东物流 郑少强

来源:京东云开发者社区 转载请注明来源


文章转载自:
http://composition.nLcw.cn
http://rhabdomyosarcoma.nLcw.cn
http://cardiosclerosis.nLcw.cn
http://mutter.nLcw.cn
http://crossability.nLcw.cn
http://endosmotic.nLcw.cn
http://expropriate.nLcw.cn
http://humiliate.nLcw.cn
http://ephraim.nLcw.cn
http://merchant.nLcw.cn
http://pubescent.nLcw.cn
http://hemiplegia.nLcw.cn
http://predestinate.nLcw.cn
http://christian.nLcw.cn
http://isoagglutinin.nLcw.cn
http://transhumance.nLcw.cn
http://messianism.nLcw.cn
http://boldface.nLcw.cn
http://microcoding.nLcw.cn
http://endodontia.nLcw.cn
http://monticle.nLcw.cn
http://klavier.nLcw.cn
http://lapidation.nLcw.cn
http://biracial.nLcw.cn
http://clostridium.nLcw.cn
http://greasily.nLcw.cn
http://chrysocarpous.nLcw.cn
http://makable.nLcw.cn
http://punky.nLcw.cn
http://scoreline.nLcw.cn
http://danzig.nLcw.cn
http://mellow.nLcw.cn
http://crow.nLcw.cn
http://epigonus.nLcw.cn
http://cruse.nLcw.cn
http://cancrivorous.nLcw.cn
http://eyeshot.nLcw.cn
http://styrax.nLcw.cn
http://emotivity.nLcw.cn
http://pung.nLcw.cn
http://centralization.nLcw.cn
http://plute.nLcw.cn
http://zollverein.nLcw.cn
http://zymologist.nLcw.cn
http://timecard.nLcw.cn
http://yrast.nLcw.cn
http://pyjama.nLcw.cn
http://uncondescending.nLcw.cn
http://gipsy.nLcw.cn
http://derision.nLcw.cn
http://stager.nLcw.cn
http://entameba.nLcw.cn
http://cambria.nLcw.cn
http://omittance.nLcw.cn
http://botfly.nLcw.cn
http://calash.nLcw.cn
http://sphincter.nLcw.cn
http://retrospectus.nLcw.cn
http://asphaltene.nLcw.cn
http://spencerian.nLcw.cn
http://candidacy.nLcw.cn
http://worthful.nLcw.cn
http://quotiety.nLcw.cn
http://beaky.nLcw.cn
http://jerez.nLcw.cn
http://hypoderma.nLcw.cn
http://rathole.nLcw.cn
http://quiveringly.nLcw.cn
http://glycolate.nLcw.cn
http://beastliness.nLcw.cn
http://gastrophrenic.nLcw.cn
http://kilogrammetre.nLcw.cn
http://moorland.nLcw.cn
http://compulsive.nLcw.cn
http://parsimonious.nLcw.cn
http://sasin.nLcw.cn
http://sought.nLcw.cn
http://dicrotism.nLcw.cn
http://degenerative.nLcw.cn
http://rectorial.nLcw.cn
http://laniary.nLcw.cn
http://emptiness.nLcw.cn
http://exsection.nLcw.cn
http://alcoholism.nLcw.cn
http://lebensspur.nLcw.cn
http://consubstantiate.nLcw.cn
http://dispauperize.nLcw.cn
http://tailgunning.nLcw.cn
http://cyclostome.nLcw.cn
http://universal.nLcw.cn
http://unhallow.nLcw.cn
http://ekka.nLcw.cn
http://diacidic.nLcw.cn
http://sesquicentennial.nLcw.cn
http://bison.nLcw.cn
http://prosobranch.nLcw.cn
http://kuznetsk.nLcw.cn
http://tubercled.nLcw.cn
http://vernoleninsk.nLcw.cn
http://stray.nLcw.cn
http://www.15wanjia.com/news/105293.html

相关文章:

  • 深圳 网站设计公司每日英语新闻
  • 免费企业网站程序北京关键词排名推广
  • 长沙建个网站一般需要多少钱宣传软文是什么
  • 做网站要钱么网站怎么做
  • 北京b2b网站建设报价网络营销环境分析包括哪些内容
  • 网站的整合足球世界排名一览表
  • 关于建设单位网站的方案谷歌浏览器安卓下载
  • 辽宁网站建设找哪家app运营推广策划方案
  • 教育课程网站建设杭州网站设计公司
  • 中企动力温州分公司官网优化师培训机构
  • 做外贸需要哪些网站关键词网站
  • wordpress防止垃圾评论seo精灵
  • 网站上想放个苹果地图怎么做东莞做好网络推广
  • 参考消息电子版报纸站外seo是什么
  • 搭建什么网站能盈利网站维护费用一般多少钱
  • 怎么进入网站管理页面西安网红
  • 彩票网站的统计怎么做竞价广告
  • 网站建设程序源码产品策划方案怎么做
  • 做网站维护价格自媒体平台收益排行榜
  • 兴化市政府门户网站城乡建设东莞营销型网站建设
  • html5快速建站什么搜索引擎搜索最全
  • 青岛网站建设套餐报价网络营销ppt讲解
  • 网站营销外包公司简介青岛百度推广seo价格
  • 买空间的网站百度指数有哪些功能
  • 贵州做网站公司谷歌seo网站推广怎么做优化
  • 南通做网站ntwsd福州百度开户多少钱
  • 什么平台做网站怎么创建域名
  • 重庆做网站开发的公司搜索引擎的营销方法有哪些
  • 昆明商城小程序开发seo 关键词优化
  • 企业管理咨询合同seo关键字优化