当前位置: 首页 > news >正文

格子铺网站建设方案网站模板 婴儿

格子铺网站建设方案,网站模板 婴儿,做生意在哪个网站做,苏州网站推广工具AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等…

AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。

AIGCmagic社区知识星球

截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以AI绘画、AI视频、大模型、AI多模态以及数字人为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。


论文题目:《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》

发表时间:2024年5月

论文地址:https://arxiv.org/pdf/2405.04434v5

本文作者:魔方AI空间公众号主理人 猫先生

在2024年5月前后的时间,大语言模型(LLMs)的快速发展,展示了人工智能(AGI)的曙光。然而,随着参数量的增加,模型的智能提升带来了更大的计算资源需求和推理吞吐量的潜在下降,限制了LLMs的广泛应用。

本项目主要目标是解决LLMs在训练和推理过程中资源消耗大的问题,通过创新架构(包括多头潜在注意力(MLA)和DeepSeekMoE)实现经济高效的训练高效的推理。

图1|(a) 不同开源模型下多模态语言模型(MMLU)准确率与激活参数的关系。(b) DeepSeek 67B(密集型)和DeepSeek-V2的训练成本与推理效率。

图1|(a) 不同开源模型下多模态语言模型(MMLU)准确率与激活参数的关系。(b) DeepSeek 67B(密集型)和DeepSeek-V2的训练成本与推理效率。


方法概述

DeepSeek-V2,一种强大的MoE语言模型,通过创新的架构实现了经济和高效的训练和推理。

图2 | DeepSeek-V2架构示意图。MLA通过显著减少生成所需的KV缓存来确保高效推理,而DeepSeekMoE则通过稀疏架构以经济成本训练出强大的模型。

图2 | DeepSeek-V2架构示意图。MLA通过显著减少生成所需的KV缓存来确保高效推理,而DeepSeekMoE则通过稀疏架构以经济成本训练出强大的模型。


多头潜在注意力(MLA

一种新的注意力机制,通过低秩键值联合压缩来显著减少推理时的键值缓存,从而提高推理效率。MLA的计算过程如下:

  • 标准多头注意力(MHA)首先通过三个矩阵计算查询(q)、键(k)和值(v):

图片

  • 然后,将q、k、v切片成多个头进行多头注意力计算:

图片

  • 最后,通过softmax函数计算权重并进行加权和:

图片

  • MLA通过低秩联合压缩键值对

图片

图3 | 多头注意力(MHA)、分组查询注意力(GQA)、多查询注意力(MQA)和多头潜在注意力(MLA)的简化示意图。通过将键和值联合压缩成一个潜在向量,MLA在推理过程中显著减少了KV缓存

图3 | 多头注意力(MHA)、分组查询注意力(GQA)、多查询注意力(MQA)和多头潜在注意力(MLA)的简化示意图。通过将键和值联合压缩成一个潜在向量,MLA在推理过程中显著减少了KV缓存

DeepSeekMoE

通过细粒度的专家分割和共享专家隔离来实现更高效的模型训练。DeepSeekMoE的基本思想是将专家分割成更细的粒度以提高专家的专业化,并通过隔离一些共享专家来缓解路由专家之间的知识冗余。具体计算过程如下:

  • 对于每个token,计算其FFN输出:

图片

  • 通过设备限制路由机制来控制MoE相关的通信成本,确保每个token的专家分布在最多M个设备上。

  • 设计了三种辅助损失来控制专家级负载平衡、设备级负载平衡和通信平衡。

  • 采用设备级token丢弃策略来进一步缓解计算浪费。


推荐阅读

AIGCmagic社区介绍:

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!

AI多模态核心架构五部曲:

AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1):ChatGLM系列

AI多模态模型架构之LLM主干(2):Qwen系列

AI多模态模型架构之LLM主干(3):Llama系列  

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!

AI多模态模型架构之模态生成器:Modality Generator

AI多模态实战教程:

AI多模态教程:从0到1搭建VisualGLM图文大模型案例

AI多模态教程:Mini-InternVL1.5多模态大模型实践指南

AI多模态教程:Qwen-VL升级版多模态大模型实践指南

AI多模态实战教程:面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理


技术交流

加入「AIGCmagic社区」,一起交流讨论,涉及AI视频、AI绘画、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【lzz9527288】,备注不同方向邀请入群!

更多精彩内容,尽在AIGCmagic社区」,关注了解全栈式AIGC内容!

http://www.15wanjia.com/news/187434.html

相关文章:

  • 电商网站设计与制作云南网站建设天软科技
  • 二级域名网站建设网站建设最低要求
  • 云南网站备案难吗浙江省住房和城乡建设局网站
  • 二级域名 电子商务网站推广方案wordpress登录插件
  • 织梦系统 子网站免费国外服务器推荐
  • 企业网站优化兴田德润网页设计与制作实训报告书
  • 建网站的公司起什么名好wordpress首页代码压缩
  • 网站域名空间合同兰州开发公司
  • 广州分享网站建设wordpress wp super
  • 可信网站认证做新闻类网站
  • 昆山自适应网站建设美客多电商平台入驻条件
  • 做网站怎么才会被百度收录网页设计作业10个页面
  • 济南小程序网站制作wordpress本地运行速度慢
  • 学网站开发要下载哪些软件wordpress当面付回调地址
  • 金山手机网站建设江苏省建设信息网站管理平台
  • 深圳市企业网站建设价格微信h5案例欣赏
  • 网站建设简单合同模板下载专线可以做网站
  • 找团队做网站需要明确哪些东西后缀int网站
  • 新乡营销型网站安卓app开发语言
  • 房地产网站建设分析中国空间站和国际空间站对比
  • 2003网站服务器建设中在灵璧怎样做网站
  • 深圳华维网站建设上海做网站 公司
  • 网站专栏建设工作方案wordpress 定时机制
  • 苏州网站建设营销q479185700刷屏怎样去推广一个平台
  • 什么网站可以自学ps做贵宾卡好品质高端网站设计新感觉建站
  • 网站建设综合实训心得体会济宁网站网站建设
  • 做平台网站怎么做的个人主机做网站
  • 如何建微信微商城网站建站软件
  • 哈尔滨网站建设费用江苏备案网站名称
  • 国际人才网招聘网什么是搜索引擎优化seo