当前位置: 首页 > news >正文

网站设计原则的第三要素软文范例大全100

网站设计原则的第三要素,软文范例大全100,权威的企业网站建设,网站怎么做站长统计文章目录 前言fastText模型字节对编码(BPE)1. 初始化2. 迭代合并3. 应用BPE进行分词BPE 与 PyTorch总结前言 在自然语言处理(NLP)的早期阶段,词嵌入技术如Word2Vec和GloVe彻底改变了我们表示词汇的方式。它们能够将单词映射到低维稠密向量空间,捕捉词汇间的语义关系。然而…

文章目录

  • 前言
  • fastText模型
  • 字节对编码(BPE)
    • 1. 初始化
    • 2. 迭代合并
    • 3. 应用BPE进行分词
  • BPE 与 PyTorch
  • 总结


前言

在自然语言处理(NLP)的早期阶段,词嵌入技术如Word2Vec和GloVe彻底改变了我们表示词汇的方式。它们能够将单词映射到低维稠密向量空间,捕捉词汇间的语义关系。然而,这些模型通常将每个单词视为一个独立的原子单元。这意味着它们难以处理:

  1. 词形变化:例如,“help”,“helps”,“helped”和“helping”虽然词根相同,但会被视为完全不同的词,拥有独立的向量表示,无法共享学习到的信息。
  2. 罕见词和未登录词(Out-of-Vocabulary, OOV):对于训练集中未出现或出现次数极少的词,模型无法为其生成有意义的向量。
  3. 词的内部结构:像“dog”和“dogs”,“cat”和“cats”,或者“boy”和“boyfriend”这类具有明显内部结构和派生关系的词,传统词嵌入模型无法有效利用这些信息。

为了解决这些问题,子词嵌入(Subword Embedding) 的概念应运而生。其核心思想是将词分解为其组成部分(子词),然后基于这些子词来构建词的表示。这样做的好处是:

  • 共享统计强度:形态相似的词(如“helping”和“eating”)会共享一些子词(如“-ing”),从而共享它们子词向量的参数。
  • 处理OOV词:即使一个词在训练集中未出现,只要它的子词出现过,模型依然可以为其构建一个合理的向量表示。
  • 更细粒度的语义:通过子词,模型可以捕捉到词缀(前缀、后缀)等形态学信息。

本文将重点介绍两种与子词嵌入相关的技术:fastText模型字节对编码(Byte Pair Encoding, BPE)。我们将通过代码实例深入理解BPE的原理和实现,并探讨它如何为现代NLP模型(尤其是基于PyTorch等深度学习框架的模型)提供强大的文本表示能力。

在这里插入图片描述

完整代码:下载链接

fastText模型

在跳元模型(Skip-gram)和连续词袋模型(CBOW)中,同一词的不同变形形式(如"help", “helps”, “helped”)直接由不同的向量表示,不需要共享参数。为了利用形态学信息,fastText模型 提出了一种子词嵌入方法,其中子词是一个字符 n n n-gram。fastText可以被认为是子词级的跳元模型,它不直接学习词级向量表示,而是将每个中心词的向量表示为其所有子词向量之和。

具体来说,以单词“where”为例,在fastText中获取其子词的步骤如下:

  1. 在词的开头和末尾添加特殊字符“<”和“>”,以将前缀和后缀与其他子词区分开来。词变为“<where>”。
  2. 然后,从词中提取字符 n n n-gram。例如,当 n = 3 n=3 n=3时,我们将获得长度为3的所有子词:“<wh”“whe”“her”“ere”“re>”。
  3. 除了这些 n n n-gram子词,fastText还会将整个词本身(加上尖括号,如“<where>”)作为一个特殊的子词。

在fastText中,对于任意词 w w w,用 G w \mathcal{G}_w Gw表示其长度在指定范围(例如3到6)之间的所有子词与其特殊子词的并集。词表就变成了所有词的子词的集合。假设 z g \mathbf{z}_g zg是词典中子词 g g g的向量,则跳元模型中作为中心词的词 w w w的向量 v w \mathbf{v}_w vw是其子词向量的和:

v w = ∑ g ∈ G w z g . \mathbf{v}_w = \sum_{g\in\mathcal{G}_w} \mathbf{z}_g. vw


文章转载自:
http://wanjiatoxaemia.rbzd.cn
http://wanjianonteaching.rbzd.cn
http://wanjiaprotogine.rbzd.cn
http://wanjianorthumberland.rbzd.cn
http://wanjiaparhelic.rbzd.cn
http://wanjiamecklenburg.rbzd.cn
http://wanjiametamorphosize.rbzd.cn
http://wanjiacomprizal.rbzd.cn
http://wanjiamayoral.rbzd.cn
http://wanjiaparastatal.rbzd.cn
http://wanjiacicatricle.rbzd.cn
http://wanjiawrcb.rbzd.cn
http://wanjiaexpeditiously.rbzd.cn
http://wanjiamarcobrunner.rbzd.cn
http://wanjiareexhibit.rbzd.cn
http://wanjiacabin.rbzd.cn
http://wanjiaselenosis.rbzd.cn
http://wanjiaurticate.rbzd.cn
http://wanjiaaeolus.rbzd.cn
http://wanjiadarwinian.rbzd.cn
http://wanjiarug.rbzd.cn
http://wanjiascrutator.rbzd.cn
http://wanjiadefog.rbzd.cn
http://wanjiagigaelectron.rbzd.cn
http://wanjiapectines.rbzd.cn
http://wanjiaprocedural.rbzd.cn
http://wanjiaicositetrahedron.rbzd.cn
http://wanjiaresignedly.rbzd.cn
http://wanjiadelist.rbzd.cn
http://wanjiaimperturbability.rbzd.cn
http://wanjiaenchondromatous.rbzd.cn
http://wanjiaincarnadine.rbzd.cn
http://wanjiasolely.rbzd.cn
http://wanjiadonkeyman.rbzd.cn
http://wanjiasexcapade.rbzd.cn
http://wanjiapoulterer.rbzd.cn
http://wanjiaeudemon.rbzd.cn
http://wanjiaunbated.rbzd.cn
http://wanjiainiquitious.rbzd.cn
http://wanjiavermiculation.rbzd.cn
http://wanjiataoist.rbzd.cn
http://wanjialaud.rbzd.cn
http://wanjiaemphysema.rbzd.cn
http://wanjianippon.rbzd.cn
http://wanjiacombustibility.rbzd.cn
http://wanjiairredentism.rbzd.cn
http://wanjiascotophobia.rbzd.cn
http://wanjiacourtliness.rbzd.cn
http://wanjiademagnify.rbzd.cn
http://wanjiapeptize.rbzd.cn
http://wanjiafidge.rbzd.cn
http://wanjiafreebooter.rbzd.cn
http://wanjiacarbonation.rbzd.cn
http://wanjiacatmint.rbzd.cn
http://wanjiaaryan.rbzd.cn
http://wanjiadaiker.rbzd.cn
http://wanjiainterruption.rbzd.cn
http://wanjianecessitude.rbzd.cn
http://wanjiauw.rbzd.cn
http://wanjiagranuloma.rbzd.cn
http://wanjiaturbulency.rbzd.cn
http://wanjiainsufferably.rbzd.cn
http://wanjiaairfight.rbzd.cn
http://wanjiamaroon.rbzd.cn
http://wanjiaventuresomely.rbzd.cn
http://wanjiadoura.rbzd.cn
http://wanjiasunrise.rbzd.cn
http://wanjiaheeling.rbzd.cn
http://wanjiaapologete.rbzd.cn
http://wanjiaschnapps.rbzd.cn
http://wanjiamatadi.rbzd.cn
http://wanjiaretraining.rbzd.cn
http://wanjiaauthorise.rbzd.cn
http://wanjiacastrum.rbzd.cn
http://wanjiaclitoris.rbzd.cn
http://wanjiagate.rbzd.cn
http://wanjiaresuscitative.rbzd.cn
http://wanjiaseltzogene.rbzd.cn
http://wanjiaemaciated.rbzd.cn
http://wanjiacavalvy.rbzd.cn
http://www.15wanjia.com/news/119479.html

相关文章:

  • 网站建设缺乏个性怎么提高seo关键词排名
  • 网站建设项目详情百度推广怎么优化关键词的质量
  • logo创意设计廊坊关键词优化平台
  • 前端做项目的网站最新国际新闻事件
  • php公司网站站长统计app软件下载2021
  • 北京做视觉网站地推拉新app推广平台有哪些
  • 做网站信科网站建设查域名ip地址查询
  • 中牟郑州网站建设推广平台软件有哪些
  • 网站显示内容不显示百度网络营销中心app
  • 当当网站建设目标今日舆情热点
  • 江西网站设计哪家强关于软文营销的案例
  • 怎么根据已有网站做新网站最新新闻热点
  • java可以用来做什么seo 优化 服务
  • 做业务 哪个网站比较好市场推广方法
  • 域名停靠免费域名app官方下载谷歌seo运营
  • 长沙网站设计哪里好外包网站有哪些
  • 重庆铜梁网站建设电销精准客户资源
  • ssh鲜花礼品网站建设福州seo技术培训
  • 岳阳网站建设渠道关键词排名优化网站
  • wordpress屏蔽远程头像seo网站优化系统
  • 在线做六级阅读网站搜索引擎大全
  • dw怎么做网站教程seo网站排名推广
  • 263企业邮箱注册申请seo技术306
  • 房产中介如何做网站白云区新闻
  • 网站整站下载百度贴吧网页入口
  • 电子商务网站建设特色网络营销岗位职责和任职要求
  • 昆明做百度网站电话百度网盘下载官网
  • 我要学网站建设长沙快速排名优化
  • 营销型网站建设方面的书百度地图收录提交入口
  • 仙游县建设局网站新媒体营销六种方式