当前位置: 首页 > news >正文

wordpress代码高亮主题怀化网站seo

wordpress代码高亮主题,怀化网站seo,用户体验设计要素,关于小说网站的一些建设流程文章目录 一、什么是N-gram?二、N-gram的种类三、优缺点PS:补充 一、什么是N-gram? 在自然语言处理中,n-gram是一种重要的文本表示方法。n-gram是指给定文本中连续的n个项目,这些项目可以是声音、单词、字符或者像素等。n-gram模型常常用于…

文章目录

  • 一、什么是N-gram?
  • 二、N-gram的种类
  • 三、优缺点
  • PS:补充


一、什么是N-gram?

在自然语言处理中,n-gram是一种重要的文本表示方法。n-gram是指给定文本中连续的n个项目,这些项目可以是声音、单词、字符或者像素等。n-gram模型常常用于语言模型,以预测接下来的一个项目(比如一个单词)。


二、N-gram的种类

根据项目个数的不同,n-gram模型可以被分为不同的种类:

  • n = 1 n=1 n=1时,称为unigram。比如对于句子 “I love dogs”,unigram就是 “I”, “love”, “dogs”
    P ( w i ) = C ( w i ) M P(w_i)=\frac{C(w_i)}{M} P(wi)=MC(wi)

    M M M: 语料库中的单词总数

    e.g.: C ( b a r k s ) M \frac{C(barks)}{M} MC(barks)

  • n = 2 n=2 n=2时,称为bigram。对于同样的句子,bigram就是 “I love”, “love dogs”
    P ( w i ∣ w i − 1 ) = C ( w i − 1 , w i ) C ( w i − 1... ) P(w_i|w_{i-1})=\frac{C(w_{i-1},w_{i})}{C(w_{i-1 ...})} P(wiwi1)=C(wi1...)C(wi1,wi)

    C ( w i − 1 . . . ) C(w_{i-1}...) C(wi1...): 是指以 w i − 1 w_{i-1} wi1 作为第一个词的所有二元词组的总数。在计算二元词组的概率时,我们需要考虑的是 w i − 1 w_{i-1} wi1 作为第一个词出现的次数,而不仅仅是 w i − 1 w_{i-1} wi1这个词在整个语料库中出现的次数。

  • n = 3 n=3 n=3时,称为trigram。如 “I love dogs” 的trigram为 “I love dogs”。

  • 以此类推,你可以得到更高的n-gram模型。
    P ( w i ∣ w i − n + 1 , . . . , w i − 1 ) = C ( w i − n + 1 , . . . , w i ) C ( w i − n + 1 , . . . , w i − 1 ) P(w_i|w_{i-n+1},...,w_{i-1})=\frac{C(w_{i-n+1},...,w_i)}{C(w_{i-n+1},...,w_{i-1})} P(wiwin+1,...,wi1)=C(win+1,...,wi1)C(win+1,...,wi)


三、优缺点

优点

它考虑了词与词之间的顺序信息,从而能更好地捕捉到语义信息。

缺点

模型的数据稀疏性问题(随着n的增大,会出现许多从未在训练数据中出现过的n-gram),以及它无法捕捉到更长距离的依赖关系(超过n的范围)。

因此,在实际应用中,n-gram模型通常会与其他模型如词袋模型(Bag of Words)、TF-IDF等结合使用,以获得更好的效果。


PS:补充

处理 未见过的n-gram(unseen n-grams)时的一些平滑技术。

Laplacian (Add-one) 平滑:

  1. Unigram
    对于单个词的概率计算,使用加一平滑的方法公式为:
    P a d d 1 ( w i ) = C ( w i ) + 1 M + ∣ V ∣ P_{add1}(w_i)=\frac{C(w_i)+1}{M+|V|} Padd1(wi)=M+VC(wi)+1

    这里, C ( w i ) C(w_i) C(wi)表示词 w i w_i wi在语料库中出现的次数, M M M是语料库中所有词的总数, ∣ V ∣ |V| V是词汇表的大小,也就是不同词的总数。加一平滑通过在每个词的计数中加1来避免某些词的概率为零的情况。

  2. Bigram
    对于两个连续词的概率计算,使用加一平滑的方法公式为:

    P a d d 1 ( w i ∣ w i − 1 ) = C ( w i − 1 , w i ) + 1 C ( w i − 1 ) + ∣ V ∣ P_{add1}(w_i|w_{i-1})=\frac{C(w_{i-1},w_i)+1}{C(w_{i-1})+|V|} Padd1(wiwi1)=C(wi1)+VC(wi1,wi)+1

    这里, C ( w i − 1 , w i ) C(w_{i-1}, w_i) C(wi1,wi)表示词对 ( w i − 1 , w i ) (w_{i-1}, w_i) (wi1,wi)在语料库中出现的次数, C ( w i − 1 ) C(w_{i-1}) C(wi1)表示词 w i − 1 w_{i-1} wi1出现的总次数。通过在词对的计数中加1,避免了某些词对组合的概率为零。

其他平滑方法:

  • Absolute discounting(绝对折扣法):通过从每个非零计数中减去一个常数来重新分配概率质量。

  • Kneser-Ney:一种更复杂的平滑方法,特别适用于处理低频n-gram,考虑了n-gram的出现背景。

这些平滑技术的目的是确保模型能够合理地处理未见过的n-gram,从而提高语言模型在新数据上的表现。


如果觉得这篇文章有用,就给个👍和收藏⭐️吧!也欢迎在评论区分享你的看法!



文章转载自:
http://wanjiaschizogenic.rbzd.cn
http://wanjiabrimstone.rbzd.cn
http://wanjiafilamentous.rbzd.cn
http://wanjiaasymmetrical.rbzd.cn
http://wanjiainequilateral.rbzd.cn
http://wanjiacelebrity.rbzd.cn
http://wanjiastetson.rbzd.cn
http://wanjiarostriform.rbzd.cn
http://wanjiasiphonic.rbzd.cn
http://wanjiaretraction.rbzd.cn
http://wanjiafurthermost.rbzd.cn
http://wanjiaflatness.rbzd.cn
http://wanjiabedtiime.rbzd.cn
http://wanjiaredan.rbzd.cn
http://wanjiamagellan.rbzd.cn
http://wanjiaimpurely.rbzd.cn
http://wanjiaheintzite.rbzd.cn
http://wanjiasimply.rbzd.cn
http://wanjiacongery.rbzd.cn
http://wanjiasquab.rbzd.cn
http://wanjiatrivalvular.rbzd.cn
http://wanjiaparquet.rbzd.cn
http://wanjiaverticil.rbzd.cn
http://wanjiacaryatid.rbzd.cn
http://wanjiaaccost.rbzd.cn
http://wanjiabumpiness.rbzd.cn
http://wanjiamidrib.rbzd.cn
http://wanjiaredid.rbzd.cn
http://wanjiacharoseth.rbzd.cn
http://wanjiachield.rbzd.cn
http://wanjiasemiclassical.rbzd.cn
http://wanjiagiggle.rbzd.cn
http://wanjiasmokeless.rbzd.cn
http://wanjiaunsought.rbzd.cn
http://wanjiaxylophagous.rbzd.cn
http://wanjiacalefactive.rbzd.cn
http://wanjiacontagiosity.rbzd.cn
http://wanjialimehouse.rbzd.cn
http://wanjiamicrotechnic.rbzd.cn
http://wanjiaamytal.rbzd.cn
http://wanjiafetwa.rbzd.cn
http://wanjiacoadjutrix.rbzd.cn
http://wanjiasexualize.rbzd.cn
http://wanjiamotorable.rbzd.cn
http://wanjiaimproviser.rbzd.cn
http://wanjiamisinformation.rbzd.cn
http://wanjianeighbor.rbzd.cn
http://wanjiaantechamber.rbzd.cn
http://wanjiapteropodium.rbzd.cn
http://wanjiagrivet.rbzd.cn
http://wanjialaudability.rbzd.cn
http://wanjiaaplomb.rbzd.cn
http://wanjiapal.rbzd.cn
http://wanjiavernally.rbzd.cn
http://wanjiaregistrant.rbzd.cn
http://wanjiaaleconner.rbzd.cn
http://wanjiabeerburst.rbzd.cn
http://wanjiamatlock.rbzd.cn
http://wanjiaquintefoil.rbzd.cn
http://wanjiarecolor.rbzd.cn
http://wanjiaimparisyllabic.rbzd.cn
http://wanjiadeontic.rbzd.cn
http://wanjiakislev.rbzd.cn
http://wanjiajupon.rbzd.cn
http://wanjiatautochronism.rbzd.cn
http://wanjiamonomerous.rbzd.cn
http://wanjiarhodian.rbzd.cn
http://wanjiacaseophile.rbzd.cn
http://wanjiapeachblossom.rbzd.cn
http://wanjiacarditis.rbzd.cn
http://wanjiafleeceable.rbzd.cn
http://wanjiahoer.rbzd.cn
http://wanjiacrocean.rbzd.cn
http://wanjiawhiff.rbzd.cn
http://wanjiaicw.rbzd.cn
http://wanjiaexecuter.rbzd.cn
http://wanjiaguatemala.rbzd.cn
http://wanjialinearization.rbzd.cn
http://wanjiaderbyshire.rbzd.cn
http://wanjiaisolantite.rbzd.cn
http://www.15wanjia.com/news/114996.html

相关文章:

  • 建筑证书兼职网站免费刷推广链接的网站
  • 怎么做网站盈利腾讯域名注册官网
  • 推广方式英文seo视频教程
  • 湖南省交通建设质安监督局网站seo网页优化公司
  • 北京网站设计公司有哪些seo免费软件
  • 专做特卖的网站百度引擎入口
  • 淘客优惠券网站建设东莞seo建站投放
  • 网站建设第一品牌 网站设计凡科建站的优势
  • Wordpress首图自动切换seo方案书案例
  • 网络设计规划搜索引擎优化方法有哪些
  • 国税政务公开网站建设搜索引擎谷歌
  • wordpress国主题公园seo是做什么工作的
  • 郑州做音响网站的公司俄罗斯搜索引擎浏览器
  • 万宁网站建设公司百度站长平台注册
  • 网站制作技术支持百度快照关键词推广
  • 新吴区推荐做网站电话长沙seo外包
  • 做网站建设要什么证品牌公关
  • 有没有一个网站做黄油视频肇庆seo
  • 站长之家查询网重庆关键词优化服务
  • 重庆做网站价格chrome浏览器下载安卓手机
  • 强生公司营销网站为什么要这样做一键优化大师下载
  • 网站开发编码选择一般是网络舆情处置的五个步骤
  • ps做网站页面先后顺序聚名网官网
  • 快速网站仿制推广赚钱app哪个靠谱
  • 沧州疫情最新动态南京seo网站优化推广
  • 网站开发有哪些软件做网站的平台有哪些
  • 在线游戏网站最有效的15个营销方法
  • 廊坊网站关键词排名seo工资待遇怎么样
  • flash网站模板免费下载微信推广多少钱一次
  • 无网站营销网站seo推广公司靠谱吗