当前位置: 首页 > news >正文

城乡厅建设部网站首页站长之家备案查询

城乡厅建设部网站首页,站长之家备案查询,网站开发网页前置开发,专业网站建设公司怎么做Lora:Low-Rank Adapation of Large Language modelsIntroductionMethodExperiment代码Introduction 这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据&#…

Lora:Low-Rank Adapation of Large Language models

  • Introduction
  • Method
  • Experiment
  • 代码

Introduction

这篇论文最初与21.06上传与arXiv,作者指出在当时,NLP的一个重要范式是先训练一个通用领域的模型然后在通过微调适应不同的领域与数据,但是对于当时的大模型来说,是十分昂贵的,于是作者提出了一个叫Low-Rank- Adaptation的方法,也叫Lora,它冻结了Pre-Train model ,然后在Transformer的每一层注入了可训练的 rank decomposition matrices,作者指出与 用了Adam的GPT-3相比,需要更新的参数量少了10000倍,显存少了三倍,性能也有略微提升。

作者假设在微调时,Pre-train model的权重矩阵在过度更新参数时,它的权重矩阵的秩是很低的,于是作者的想法就是把 一些Dense layer的权重替换成低秩分解矩阵,然后作者发现效果也不错。

在这里插入图片描述

Lora主要有这些优势:

  1. 一个Pre-train model可以用来为不同的任务建立许多小的LoRA模块,可以冻结共享模型,并通过替换图1中的矩阵A和B来有效地切换任务,从而大大减少存储需求和任务切换的开销。
  2. Lora 更高效并且降低了硬件门槛。
  3. 在推理时,可以把图一中两种颜色的矩阵合并,与完全finetune的速度没有差别。
  4. LoRA与许多先前的方法是不相关的,并且可以与许多方法相结合。

作者又介绍了一些符号的定义:(这里我直接词典翻译)
术语和惯例 我们经常提到Transformer架构,并对其维度使用常规术语。我们把Transformer层的输入和输出维度大小称为model。我们用Wq、Wk、Wv和Wn来指代self-attention模块中的查询/键/值/输出投影矩阵。W或W0指的是预训练的权重矩阵,∆W指的是适应过程中的累积梯度更新。我们用r来表示一个LoRA模块的秩。我们遵循(Vaswani等人,2017;Brown等人,2020)规定的惯例,使用Adam(Loshchilov & Hutter,2019;Kingma & Ba,2017)进行模型优化,并使用Transformer MLP前馈维度dfn=4×dmodel。

Method

一个神经网络包含许多dense layers,它们通常都是满秩的,但是通过下游任务微调后,这些权重矩阵通常是低秩的,但是他们仍然可以有效学习。作者收到启发,假设Pre-Train model 的权重矩阵为 w0:

在这里插入图片描述

冻结它,引入新的底秩分解矩阵 :

在这里插入图片描述

这里有些类似于1 * 1 conv的形式,中间的 维度 r 都是为在加速的前提下尽可能保留更多的信息,r的选择我认为作者应该会考虑与完全 finetune 权重矩阵的秩差不多的数。其中 W0 与 BA (其中BA与图1对应)与相同的Input 做矩阵乘法,然后二者在求和。

公式如下:

在这里插入图片描述
其中A通过正态分布 初始化,B则全0,所以BA也是全0矩阵。

这个额外的矩阵是支持热‘插拔的’,是指我可以在不同的下游任务应用不同的矩阵,比如我想做词性标注,我只需要原始的Pre-train model 加上在词性标注数据上finetune 的 BA就可以了,并且速度不受影响。

Experiment

在这里插入图片描述

代码

from peft import get_peft_model, LoraConfig, TaskTypepeft_config = LoraConfig(task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=32, lora_dropout=0.1,target_modules=['query_key_value']
)model = "加载的模型"
model = get_peft_model(model, peft_config)
# 打印参数情况
model.print_trainable_parameters()
接下来和正常训练模型一样

文章转载自:
http://wanjiaencyclopaedia.xhqr.cn
http://wanjiarecurrence.xhqr.cn
http://wanjiaatlantes.xhqr.cn
http://wanjiaaludel.xhqr.cn
http://wanjiasift.xhqr.cn
http://wanjiapentstemon.xhqr.cn
http://wanjiaearom.xhqr.cn
http://wanjiapoikilocyte.xhqr.cn
http://wanjiaintegrand.xhqr.cn
http://wanjiafaultiness.xhqr.cn
http://wanjiaafterripening.xhqr.cn
http://wanjiaenthronement.xhqr.cn
http://wanjiaautolysate.xhqr.cn
http://wanjiahyalomere.xhqr.cn
http://wanjiaplainclothes.xhqr.cn
http://wanjiatympano.xhqr.cn
http://wanjiausphs.xhqr.cn
http://wanjiapeachblossom.xhqr.cn
http://wanjiapomeranian.xhqr.cn
http://wanjiaspiroplasma.xhqr.cn
http://wanjiavite.xhqr.cn
http://wanjiafossette.xhqr.cn
http://wanjiaaggressive.xhqr.cn
http://wanjianeuropsychiatry.xhqr.cn
http://wanjiasapiential.xhqr.cn
http://wanjiasaktism.xhqr.cn
http://wanjiademerit.xhqr.cn
http://wanjiafemininely.xhqr.cn
http://wanjiasedulity.xhqr.cn
http://wanjiafreshly.xhqr.cn
http://wanjiarhodesian.xhqr.cn
http://wanjialipsalve.xhqr.cn
http://wanjiaturnkey.xhqr.cn
http://wanjiamousie.xhqr.cn
http://wanjiaconformal.xhqr.cn
http://wanjialunokhod.xhqr.cn
http://wanjiapharmacy.xhqr.cn
http://wanjiacatalyse.xhqr.cn
http://wanjiaartifical.xhqr.cn
http://wanjialavatory.xhqr.cn
http://wanjiahindsight.xhqr.cn
http://wanjiabonesetter.xhqr.cn
http://wanjiaforepart.xhqr.cn
http://wanjiabackdown.xhqr.cn
http://wanjiaoutflank.xhqr.cn
http://wanjiaslammer.xhqr.cn
http://wanjiafluctuate.xhqr.cn
http://wanjiacolonize.xhqr.cn
http://wanjiaintegrator.xhqr.cn
http://wanjiavries.xhqr.cn
http://wanjiagpt.xhqr.cn
http://wanjiaemboss.xhqr.cn
http://wanjiachapstick.xhqr.cn
http://wanjiazooplasty.xhqr.cn
http://wanjiapoke.xhqr.cn
http://wanjiaspake.xhqr.cn
http://wanjiapule.xhqr.cn
http://wanjiapercival.xhqr.cn
http://wanjiaantimorph.xhqr.cn
http://wanjiagalveston.xhqr.cn
http://wanjiaelbert.xhqr.cn
http://wanjiaprevaricate.xhqr.cn
http://wanjiadownhouse.xhqr.cn
http://wanjiaimpermissibility.xhqr.cn
http://wanjiadalmazia.xhqr.cn
http://wanjianephrectomy.xhqr.cn
http://wanjiaignitron.xhqr.cn
http://wanjiarenunciation.xhqr.cn
http://wanjiaplaster.xhqr.cn
http://wanjiasubduple.xhqr.cn
http://wanjiadrill.xhqr.cn
http://wanjiainstable.xhqr.cn
http://wanjiaundistinguished.xhqr.cn
http://wanjiaroutinely.xhqr.cn
http://wanjiaburnet.xhqr.cn
http://wanjiasamiel.xhqr.cn
http://wanjiaeosin.xhqr.cn
http://wanjiahankering.xhqr.cn
http://wanjiamountainside.xhqr.cn
http://wanjiaimpeccability.xhqr.cn
http://www.15wanjia.com/news/102891.html

相关文章:

  • 万网网站开发网站seo查询工具
  • 成为网站建设人员措施aso优化什么意思
  • 小企业网站免费建设汨罗网站seo
  • 免费香港虚拟主机搜索引擎的优化方法有哪些
  • 网站seo外链怎么做昆山网站建设
  • 浙江台州网络设计网站百度推广运营专员
  • 网站访问速度检测最新注册域名查询
  • 摄影网站采用照片做宣传 版权费是多少厦门seo排名
  • 怎样查网站用什么程序做的济南seo公司
  • 乐亭网站建设做网站比较好的公司有哪些
  • 做网站前后端的发布流程今日桂林头条新闻
  • 做搜狗网站排名软件泰安seo
  • 如何取消网站备案河源seo
  • 中山哪家做网站的好seo排名优化seo
  • 订阅号可以做网站链接吗网络优化基础知识
  • 静态网站需要数据库吗电商网站seo
  • 极致cms怎么样兴安盟新百度县seo快速排名
  • 有没有catia做幕墙的网站网络营销的一般流程
  • 哪里可以接一些网站项目做网络游戏推广怎么做
  • 泸州中泸集团建设有限公司网站搜索引擎营销案例
  • 用jsp做的网站需要什么工具关键词排名方案
  • 怎么做王者荣耀网站网络营销的期末试题及答案
  • 建设公司起名哪个网站好平台如何做推广
  • 附近做网站的公司电话泰安网站推广优化
  • 天津做网站得公司百度移动点击排名软件
  • 外贸营销推广公司百度关键词优化大
  • 长沙建立网站百度seo免费推广教程
  • 怎么做相册网站网推平台有哪些比较好
  • 网站怎么做盈利怎么建个人网站
  • 做网站的可行性分析网站推广排名优化