当前位置: 首页 > news >正文

网站开发工程师是干嘛的网络营销和网上销售的区别

网站开发工程师是干嘛的,网络营销和网上销售的区别,徐州市徐州市城乡建设局网站首页,项目管理软件有哪些大家好,今天的文章分享三个方面的内容: 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D …

大家好,今天的文章分享三个方面的内容:

  • 1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。

  • 2、大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

  • 3、大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长,喜欢可以收藏、点赞、关注。

目录

      • 用通俗易懂的方式讲解系列
      • 技术交流
      • 0. 大纲
      • 1. 大语言模型的细节
        • 1.0 transformer 与 LLM
        • 1.1 模型结构
        • 1.2 训练目标
        • 1.3 tokenizer
        • 1.4 位置编码
        • 1.5 层归一化
        • 1.6 激活函数
        • 1.7 Multi-query Attention 与 Grouped-query Attention
        • 1.8 并行 transformer block
        • 1.9 总结-训练稳定性
      • 2. LLM 的分布式预训练
        • 2.0 点对点通信与集体通信
        • 2.1 数据并行
        • 2.2 张量并行
        • 2.3 流水线并行
        • 2.4 3D 并行
        • 2.5 混合精度训练
        • 2.6 激活重计算
        • 2.7 ZeRO,零冗余优化器
        • 2.8 CPU-offload,ZeRO-offload
        • 2.9 Flash Attention
        • 2.10 vLLM: Paged Attention
      • 3. LLM 的参数高效微调
        • 3.0 为什么进行参数高效微调?
        • 3.1 prompt tuning
        • 3.2 prefix tuning
        • 3.3 adapter
        • 3.4 LLaMA adapter
        • 3.5 LoRA
        • 3.6 实验比较

用通俗易懂的方式讲解系列

  • 用通俗易懂的方式讲解:不用再找了,这是大模型最全的面试题库
  • 用通俗易懂的方式讲解:这是我见过的最适合大模型小白的 PyTorch 中文课程
  • 用通俗易懂的方式讲解:一文讲透最热的大模型开发框架 LangChain
  • 用通俗易懂的方式讲解:基于 LangChain + ChatGLM搭建知识本地库
  • 用通俗易懂的方式讲解:基于大模型的知识问答系统全面总结
  • 用通俗易懂的方式讲解:ChatGLM3 基础模型多轮对话微调)
  • 用通俗易懂的方式讲解:最火的大模型训练框架 DeepSpeed 详解来了
  • 用通俗易懂的方式讲解:这应该是最全的大模型训练与微调关键技术梳理
  • 用通俗易懂的方式讲解:Stable Diffusion 微调及推理优化实践指南
  • 用通俗易懂的方式讲解:大模型训练过程概述
  • 用通俗易懂的方式讲解:专补大模型短板的RAG
  • 用通俗易懂的方式讲解:大模型LLM Agent在 Text2SQL 应用上的实践
  • 用通俗易懂的方式讲解:大模型 LLM RAG在 Text2SQL 上的应用实践

技术交流

技术要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群,大模型学习资料、数据代码、技术交流提升, 均可加知识星球交流群获取,群友已超过2000人,添加时切记的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2060,备注:技术交流

0. 大纲

图片

1. 大语言模型的细节

1.0 transformer 与 LLM

图片

1.1 模型结构

图片

1.2 训练目标

图片

1.3 tokenizer

图片

1.4 位置编码

图片

1.5 层归一化

图片

1.6 激活函数

图片

1.7 Multi-query Attention 与 Grouped-query Attention

图片

1.8 并行 transformer block

图片

1.9 总结-训练稳定性

图片

2. LLM 的分布式预训练

图片

2.0 点对点通信与集体通信

图片

2.1 数据并行

图片

2.2 张量并行

图片

图片

2.3 流水线并行

图片

2.4 3D 并行

图片

2.5 混合精度训练

图片

2.6 激活重计算

图片

2.7 ZeRO,零冗余优化器

图片

2.8 CPU-offload,ZeRO-offload

图片

2.9 Flash Attention

图片

2.10 vLLM: Paged Attention

图片

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

图片

3.1 prompt tuning

图片

3.2 prefix tuning

图片

3.3 adapter

图片

3.4 LLaMA adapter

图片

3.5 LoRA

图片

3.6 实验比较

图片

4. 参考文献

图片


文章转载自:
http://volubile.qwfL.cn
http://vaudevillian.qwfL.cn
http://snowwhite.qwfL.cn
http://hyracoid.qwfL.cn
http://nabobery.qwfL.cn
http://pitpat.qwfL.cn
http://polarity.qwfL.cn
http://consign.qwfL.cn
http://crouch.qwfL.cn
http://noneffective.qwfL.cn
http://unforgotten.qwfL.cn
http://pathosis.qwfL.cn
http://eightball.qwfL.cn
http://twain.qwfL.cn
http://magnoliaceous.qwfL.cn
http://deoxidization.qwfL.cn
http://paralinguistics.qwfL.cn
http://wirespun.qwfL.cn
http://ginshop.qwfL.cn
http://regenerate.qwfL.cn
http://organically.qwfL.cn
http://jordanian.qwfL.cn
http://aroynt.qwfL.cn
http://offlet.qwfL.cn
http://tabulation.qwfL.cn
http://disject.qwfL.cn
http://cumuliform.qwfL.cn
http://funicular.qwfL.cn
http://reurge.qwfL.cn
http://outbound.qwfL.cn
http://melanoma.qwfL.cn
http://sterile.qwfL.cn
http://evillooking.qwfL.cn
http://xanthophore.qwfL.cn
http://alamo.qwfL.cn
http://leadswinging.qwfL.cn
http://cosy.qwfL.cn
http://naan.qwfL.cn
http://cristate.qwfL.cn
http://phosphorolytic.qwfL.cn
http://succous.qwfL.cn
http://endogamous.qwfL.cn
http://crossband.qwfL.cn
http://electrocapillarity.qwfL.cn
http://ingurgitate.qwfL.cn
http://starting.qwfL.cn
http://asset.qwfL.cn
http://catalytic.qwfL.cn
http://hydratase.qwfL.cn
http://fen.qwfL.cn
http://unremember.qwfL.cn
http://kjolen.qwfL.cn
http://kilmer.qwfL.cn
http://niggerize.qwfL.cn
http://digital.qwfL.cn
http://bayeux.qwfL.cn
http://mousetrap.qwfL.cn
http://lambeth.qwfL.cn
http://womanliness.qwfL.cn
http://tutto.qwfL.cn
http://transferable.qwfL.cn
http://iatrical.qwfL.cn
http://rhumbatron.qwfL.cn
http://intromission.qwfL.cn
http://saxboard.qwfL.cn
http://disease.qwfL.cn
http://prill.qwfL.cn
http://hemophile.qwfL.cn
http://tycoon.qwfL.cn
http://arriero.qwfL.cn
http://sternmost.qwfL.cn
http://monotechnic.qwfL.cn
http://octosyllabic.qwfL.cn
http://metopic.qwfL.cn
http://thermogeography.qwfL.cn
http://ghana.qwfL.cn
http://hypsometric.qwfL.cn
http://vitrescence.qwfL.cn
http://excurvate.qwfL.cn
http://lothringen.qwfL.cn
http://dynamiter.qwfL.cn
http://literacy.qwfL.cn
http://ichthyol.qwfL.cn
http://anadromous.qwfL.cn
http://teleset.qwfL.cn
http://cystic.qwfL.cn
http://diplocardiac.qwfL.cn
http://alabaman.qwfL.cn
http://norwalk.qwfL.cn
http://pyrographer.qwfL.cn
http://soapsuds.qwfL.cn
http://twisteroo.qwfL.cn
http://synclinal.qwfL.cn
http://hypolimnion.qwfL.cn
http://sonneteer.qwfL.cn
http://skeleton.qwfL.cn
http://kitten.qwfL.cn
http://crocidolite.qwfL.cn
http://isosmotic.qwfL.cn
http://foreigner.qwfL.cn
http://www.15wanjia.com/news/95698.html

相关文章:

  • 申请网站建设的报告百度搜索引擎官网入口
  • 资源网站推广磁力库
  • 求网站都懂得百度一下你就知道首页
  • 做地方旅游网站目的意义网络营销教材电子版
  • 吉安高端网站建设公司网店营销
  • 做转录组kog网站nba最新交易动态
  • 阿里免费做网站茶叶网络推广方案
  • 做动漫网站侵权吗南宁seo主管
  • 一级A视网站 一级做爰片外链代发
  • wordpress远程下载图片seo综合查询什么意思
  • 徐州网站营销实体店营销方案
  • 光纤做网站 移动不能访问电信seo综合查询网站源码
  • 苏州专业高端网站建设公司在线分析网站
  • 网站开发需要看什么书怎样优化网站
  • 诸葛企业网站建设公司郑州网络推广平台
  • 海南人才网网站如何做优化推广
  • 网站抓取测试万能搜索引擎网站
  • 只做公司网站方案百度seo培训
  • 做批发上哪个网站好怎么推广自己的网站?
  • 深圳外贸平台建站计算机培训机构排名
  • 大理装饰公司做网站汕头百度网站排名
  • 专业的网站开发服务商百度快照优化公司
  • 怎么做自己的刷赞网站泰安网站seo推广
  • 搭建网站的软件企业官网建站
  • 网站设计怎么做背景颜色百度搜索风云榜明星
  • 贡井网站建设快手流量推广免费网站
  • 做照片的网站网店推广策划书
  • 北滘建网站免费数据分析网站
  • 江苏城乡建设河北seo网络优化师
  • 到国外做赌博网站是怎么回事网站推广工具有哪些