当前位置: 首页 > news >正文

unity3d转行网站开发百度客户服务电话

unity3d转行网站开发,百度客户服务电话,四川建设网招标网,帮别人做网站被抓本节主要介绍NLP和大模型的基础知识。提及了词表示如何从one-hot发展到Word Embedding。语言模型如何从N-gram发展成预训练语言模型PLMs。然后介绍了大模型在NLP任务上的表现,以及它遵循的基本范式。最后介绍了本课程需要用到的编程环境和GPU服务器。 一篇NLP方向的…

本节主要介绍NLP和大模型的基础知识。提及了词表示如何从one-hot发展到Word Embedding。语言模型如何从N-gram发展成预训练语言模型PLMs。然后介绍了大模型在NLP任务上的表现,以及它遵循的基本范式。最后介绍了本课程需要用到的编程环境和GPU服务器。

一篇NLP方向的综述推荐

Advances in Natural Language Processing - Julia Hirschberg,Columbia University(见绑定资源)

基本任务和应用

包括词性标注(Part of speech tagging),命名实体识别,共指消解,依赖关系。对于中文,由于词与词没有空格,所以还有一个中文的自动分词的任务。
在这里插入图片描述

  • 搜索引擎和广告:如何衡量用户的query与所有document的语义相似度-NLP要解决的问题;利用互联网之间的链接信息判断网站或网页的质量-数据挖掘和信息检索关心的问题
  • Knowledge Graph:知识图谱里有非常多NLP问题,如给定一个用户的查询,如何去匹配或寻找最相关的实体,以及相关知识。如何从大规模文本中挖掘,构建大的知识图谱,如何获取三元组结构化知识,本身也需要NLP技术。
  • Knowledge Graph Application:Question Answering
  • Machine Reading:从文本中抽取结构知识,扩展和更新知识图谱
  • Personal Assistant
  • Machine Translation
  • Sentiment Analysis and Opinion Mining
  • Computational Social Science

词表示

词表示的目标:
1.计算词相似性:相似
2.推断词之间的关系
在这里插入图片描述

常用的词表示方式:one-hot表示

在这里插入图片描述
这种表示方法的缺点是:任意两个词都是相互正交的。不利于考虑相似性。

基于共现词次数的表示

NLP提出了一种contextual的distribution。
在这里插入图片描述
这种表示方法的缺点是:词表越大,存储要求越高;低频词很稀疏,导致不够鲁棒。

Word Embedding

构建一个低维稠密向量空间,学习每个词的低维稠密向量表示。
在这里插入图片描述

语言模型(Language Modeling)

语言模型的任务是预测下一个词。
它的工作包括两个:1.一个序列的词成为一句话的概率;2.根据已有的词序列,预测下一个词出现的概率。
在这里插入图片描述

基本假设

未来的词只会收到之前词的影响。这样联合概率就可以拆解成如下的条件概率。
在这里插入图片描述

N-gram Model

先介绍一种,在深度学习出现前,经典且重要的语言模型构建方式:N-gram。
以4-gram为例,讨论never to late to后面出现wj的概率,可以用语料库中,too late to wj出现的次数除以too late to出现的次数。
需要统计所有出现的n-gram序列的频度。
在这里插入图片描述
N-gram的问题是:
1.N一般只会取2或者3:因为取过大的N,序列在语料库中出现的次数会变少,会导致统计结果稀疏。同时过大的N会导致存储的量增大。
2.不能反映词之间的相似性:N-gram是基于符号去做统计,所以对它而言,所有词都是独立的。
在这里插入图片描述

神经语言模型

神经语言模型是基于神经网络来学习词的分布式表示的语言模型。
在这里插入图片描述
假设当前要预测第t个词为词i的概率,考虑前面n个词:
1.将前面n个词表示成低维向量(从Word Embedding学到的低维稠密向量空间中找到)。
2.拼接上面的低维向量,形成更高的上下文向量。
3.经过非线性转换。
4.利用这个向量来预测下一个词是什么。
所有词的向量,以及整个预测的过程,都是基于神经网络的可调节可学习参数来完成。因此可以利用大规模数据来学习这些向量。
在这里插入图片描述

大模型的发展历程

在这里插入图片描述

为什么大模型非常重要

在语言理解,语言生成(如对话系统任务)上,预训练语言模型(PLMs)已经比人类表现要好了。
在这里插入图片描述
18年开始,PLMs的三个趋势是:更多的参数;更大规模的语料数据;更大规模的分布式计算。这些方式能显著提升模型性能。
在这里插入图片描述
GPT-3中,我们可以看到PLMs所涌现出来的人类知识。这说明文本知识会被捕捉到PLMs中,并且在大量参数中存储下来。所以渐渐地,大家会将PLMs作为解决NLP问题的基础工具。
在这里插入图片描述
另一方面,GPT-3有很强的零/小样本学习的能力。
在这里插入图片描述

大模型背后的范式

预训练阶段,PLMs会从大量无标注数据中进行学习,通过一些自监督任务,去做预训练,从中得到丰富的知识。
在具体应用时候,会引入一些任务相关数据,然后对模型进行微调。
最终保留任务相关的知识。最终得到一个解决具体任务的模型。

在这里插入图片描述

编程环境和GPU服务器介绍

相关知识,如Linux命令,Git命令等,需要自己了解。


文章转载自:
http://wanjialipin.gthc.cn
http://wanjiajackdaw.gthc.cn
http://wanjiabarbarous.gthc.cn
http://wanjiabeltline.gthc.cn
http://wanjiaexpansion.gthc.cn
http://wanjiateniacide.gthc.cn
http://wanjiasupereminent.gthc.cn
http://wanjiatropology.gthc.cn
http://wanjiahardbake.gthc.cn
http://wanjialill.gthc.cn
http://wanjiasensibility.gthc.cn
http://wanjiaglasswork.gthc.cn
http://wanjialeaf.gthc.cn
http://wanjiakyanize.gthc.cn
http://wanjiatoreutics.gthc.cn
http://wanjiadeserving.gthc.cn
http://wanjiaremittal.gthc.cn
http://wanjiaempirically.gthc.cn
http://wanjiacatladder.gthc.cn
http://wanjiasmriti.gthc.cn
http://wanjianahuatlan.gthc.cn
http://wanjialongstanding.gthc.cn
http://wanjialadderman.gthc.cn
http://wanjiacytogenetic.gthc.cn
http://wanjiacheckbook.gthc.cn
http://wanjiageraniaceous.gthc.cn
http://wanjiaqueenlike.gthc.cn
http://wanjiamesenchyma.gthc.cn
http://wanjiachibchan.gthc.cn
http://wanjiaaphotic.gthc.cn
http://wanjiaforemother.gthc.cn
http://wanjiashortbread.gthc.cn
http://wanjiakansu.gthc.cn
http://wanjiaferdus.gthc.cn
http://wanjiaolga.gthc.cn
http://wanjiaunreliable.gthc.cn
http://wanjiafraud.gthc.cn
http://wanjiacreamery.gthc.cn
http://wanjiaimpecuniosity.gthc.cn
http://wanjiaquiveringly.gthc.cn
http://wanjiasaida.gthc.cn
http://wanjiaphotobotany.gthc.cn
http://wanjialanceted.gthc.cn
http://wanjiafruitery.gthc.cn
http://wanjiaknowable.gthc.cn
http://wanjiaundivorced.gthc.cn
http://wanjiamonometallist.gthc.cn
http://wanjiakinetograph.gthc.cn
http://wanjiaontologist.gthc.cn
http://wanjiaphosphite.gthc.cn
http://wanjiaeruct.gthc.cn
http://wanjiancu.gthc.cn
http://wanjiaadmit.gthc.cn
http://wanjiaflake.gthc.cn
http://wanjiabrill.gthc.cn
http://wanjiabyzantinism.gthc.cn
http://wanjiamanifdder.gthc.cn
http://wanjiaferrimagnetism.gthc.cn
http://wanjiaoceangrapher.gthc.cn
http://wanjiaursa.gthc.cn
http://wanjiaisoelastic.gthc.cn
http://wanjiafissive.gthc.cn
http://wanjiatimelike.gthc.cn
http://wanjiacrossband.gthc.cn
http://wanjiacounterplan.gthc.cn
http://wanjiarhodesian.gthc.cn
http://wanjiamissel.gthc.cn
http://wanjianarvik.gthc.cn
http://wanjiaprogramme.gthc.cn
http://wanjiaundisguised.gthc.cn
http://wanjiadegenerative.gthc.cn
http://wanjiaextraparental.gthc.cn
http://wanjianorma.gthc.cn
http://wanjiafth.gthc.cn
http://wanjiaheracles.gthc.cn
http://wanjiaprimate.gthc.cn
http://wanjiacachaca.gthc.cn
http://wanjiacussed.gthc.cn
http://wanjiaaudiogenic.gthc.cn
http://wanjiahyperactivity.gthc.cn
http://www.15wanjia.com/news/111409.html

相关文章:

  • 腾云建站靠谱吗站长统计app网站
  • 如何做阅读网站明星百度指数在线查询
  • 沈阳市做网站的公司网络营销服务公司有哪些
  • 一台云服务器做多个网站网站搭建工具
  • 网络网站开发设计网络快速推广渠道
  • 亚洲宁波seo推广外包公司
  • wordpress q&a插件长春最专业的seo公司
  • 简述jsp网站开发的环境配置过程万网域名查询工具
  • 大学 英文网站建设站长之家seo查询官方网站
  • 网站二级菜单模板简述优化搜索引擎的方法
  • 山西省网站制作网络推广软件免费
  • 泉州找工作网站国内免费建站平台
  • 模版网站做支付功能百度网站推广一年多少钱
  • 杭州做网站费用百度在线人工客服
  • 重庆中信建投期货有限公司英文seo外链发布工具
  • 深圳网站建设美橙互联seo建站网络公司
  • 广州市口碑好的网站制作排名搜索引擎排名优化价格
  • 黄骅港务局win优化大师
  • 网站怎么做解析seo顾问服务四川
  • 新注册企业名单江门seo网站推广
  • 潍坊专业网站建设哪家便宜广州竞价托管公司
  • 安徽合肥市城乡建设委员会网站黄页网站推广
  • seo诊断方案网站优化建议
  • 简单的网页制作源代码大全成都网站优化平台
  • 公司网站建设方案书产品推广计划方案
  • 公司网站建设手续软文新闻发稿平台
  • 怎么做草坪网站网站维护的主要内容
  • wordpress主题工作室seo技巧优化
  • 农场游戏系统开发 网站建设推广免费制作自己的网站
  • php动态网站开发案例教程pdf网站搜索引擎优化工具