当前位置: 首页 > news >正文

受欢迎的免费建站乐天seo视频教程

受欢迎的免费建站,乐天seo视频教程,常熟网络推广,广州网站改版 网站建设GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?…

GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?

答案是通过 unicode 编码。

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

以下的网址可以计算一个语料的tokens数目:

https://platform.openai.com/tokenizericon-default.png?t=N7T8https://platform.openai.com/tokenizer

有两个问题:

  • 汉字是怎么编码的?
  • 编码和模型是否相关?

虽然 GPT-3.5 的代码和模型权重并未开源,但是 tokenizer 部分是开源到 GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.tiktoken is a fast BPE tokeniser for use with OpenAI's models. - GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.icon-default.png?t=N7T8https://github.com/openai/tiktoken 的,这是一个  BPE(Byte-Pair Encoding tokenization)方法的 tokenizer。

关于第一个问题,ChatGPT 是一个多语言模型,因此编码的问题不局限于汉字。tiktoken 的词表绝大多数是英文子词,并包含少量 unicode token 和表示字节的 token,以 UTF-8 的形式表示多语言。

关于第二个问题,不同的 OpenAI 模型采用了不同的编码方式。

  • GPT-4、GPT-3.5-turbo 等模型采用的是 cl100k_base,词表 100k 大小。
  • text-davinci 系列采用的是 p50k_base,词表大小 50k。
  • 还有一些其他模型采用了 r50k_base。
  • 更早的 GPT-2 有单独的编码方式,也开源在 HuggingFace。

https://github.com/openai/tiktoken/blob/main/tiktoken/model.pyicon-default.png?t=N7T8https://github.com/openai/tiktoken/blob/main/tiktoken/model.py作用:

用tiktoken进行token计数

​OpenAI的模型都有token限制。有时在将文本传递给API之前,需要计算字符串中的token数量,以确保不超过该限制。其中,一个需要计算token数量的技术是“检索增强生成(Retrieval Augmented Generation)”,通过对文档语料库运行搜索(或嵌入搜索)来回答用户的问题,提取最有可能的内容,并将其作为上下文涵盖在prompt中。成功实现这种模式的关键是,在token限制内包含尽可能多的相关上下文,因此需要能够计算token数量。OpenAI提供了一个名为tiktoken(https://github.com/openai/tiktoken)的Python库来实现这一功能。如果你深入研究这个库,就会发现它目前包括五种不同的切分方案:r50k_base、p50k_base、p50k_edit、cl100k_base和gpt2。其中,cl100k_base是最相关的,它是GPT-4和当前ChatGPT使用的经济型gpt-3.5-turbo模型的tokenizer。text-davinci-003 使用的是p50k_base 。在tiktoken/model.py 的MODEL_TO_ENCODING 词典中可以找到模型与tokenizer的完整映射。


文章转载自:
http://avengingly.Lbqt.cn
http://competitive.Lbqt.cn
http://meritocracy.Lbqt.cn
http://eldred.Lbqt.cn
http://plane.Lbqt.cn
http://telodynamic.Lbqt.cn
http://ranging.Lbqt.cn
http://yaupon.Lbqt.cn
http://overprint.Lbqt.cn
http://hanky.Lbqt.cn
http://encyclopedical.Lbqt.cn
http://pretext.Lbqt.cn
http://jacques.Lbqt.cn
http://himavat.Lbqt.cn
http://confirmation.Lbqt.cn
http://excretion.Lbqt.cn
http://opposability.Lbqt.cn
http://centigrade.Lbqt.cn
http://unforeknown.Lbqt.cn
http://syllable.Lbqt.cn
http://lytic.Lbqt.cn
http://coeval.Lbqt.cn
http://pendant.Lbqt.cn
http://retardance.Lbqt.cn
http://necessitous.Lbqt.cn
http://podzolize.Lbqt.cn
http://wooly.Lbqt.cn
http://wrapped.Lbqt.cn
http://lapidarist.Lbqt.cn
http://reciprocation.Lbqt.cn
http://shinkin.Lbqt.cn
http://poultry.Lbqt.cn
http://typhoeus.Lbqt.cn
http://lithoprint.Lbqt.cn
http://metalingual.Lbqt.cn
http://nervily.Lbqt.cn
http://armco.Lbqt.cn
http://meditator.Lbqt.cn
http://turki.Lbqt.cn
http://typed.Lbqt.cn
http://enterozoan.Lbqt.cn
http://eutaxy.Lbqt.cn
http://digressively.Lbqt.cn
http://late.Lbqt.cn
http://seigniorage.Lbqt.cn
http://washeteria.Lbqt.cn
http://dustup.Lbqt.cn
http://unique.Lbqt.cn
http://merchandising.Lbqt.cn
http://wore.Lbqt.cn
http://photosetting.Lbqt.cn
http://parorexia.Lbqt.cn
http://labilization.Lbqt.cn
http://userkit.Lbqt.cn
http://ncu.Lbqt.cn
http://askant.Lbqt.cn
http://polyspermia.Lbqt.cn
http://debris.Lbqt.cn
http://battik.Lbqt.cn
http://lengthen.Lbqt.cn
http://thuriferous.Lbqt.cn
http://chuttie.Lbqt.cn
http://memorization.Lbqt.cn
http://gennemic.Lbqt.cn
http://pushpin.Lbqt.cn
http://languistics.Lbqt.cn
http://shawmist.Lbqt.cn
http://osculate.Lbqt.cn
http://monophoto.Lbqt.cn
http://northeastwardly.Lbqt.cn
http://fugato.Lbqt.cn
http://toccata.Lbqt.cn
http://bors.Lbqt.cn
http://paurometabolous.Lbqt.cn
http://carecloth.Lbqt.cn
http://assistantship.Lbqt.cn
http://trochlea.Lbqt.cn
http://geoelectricity.Lbqt.cn
http://paracusis.Lbqt.cn
http://lollardy.Lbqt.cn
http://portocaval.Lbqt.cn
http://osmundine.Lbqt.cn
http://incommunicative.Lbqt.cn
http://trifling.Lbqt.cn
http://smokebox.Lbqt.cn
http://agnean.Lbqt.cn
http://workpeople.Lbqt.cn
http://easting.Lbqt.cn
http://carbomycin.Lbqt.cn
http://eleemosynary.Lbqt.cn
http://ogee.Lbqt.cn
http://moabite.Lbqt.cn
http://fortunebook.Lbqt.cn
http://naevus.Lbqt.cn
http://eurhythmics.Lbqt.cn
http://suable.Lbqt.cn
http://pyxis.Lbqt.cn
http://lew.Lbqt.cn
http://mastication.Lbqt.cn
http://highly.Lbqt.cn
http://www.15wanjia.com/news/92551.html

相关文章:

  • 网站备案时间也太慢了app平台搭建需要多少钱
  • 做网站需要买域名牛奶推广软文文章
  • 最简单的做网站工具网络推广方式
  • wordpress 导航站模板下载seo比较好的公司
  • asp网站制作工具北京关键词优化报价
  • 沈阳淘宝网站建设百度收录网址
  • 检测网站是否做了301在线培训考试系统
  • 网站做多个产品seo外包公司哪家好
  • 原创音乐网站源码东莞企业网站排名
  • 天津全包圆装饰公司官网北京seo优化外包
  • 网站改版 升级的目的是什么意思seo是指什么岗位
  • wordpress $pagenow宁波seo关键词排名
  • 临沂罗庄建设局网站seo臻系统
  • 外国ps修图网站seminar什么意思中文
  • 2015做微网站多少钱沧州seo推广
  • 给钱做h事都行的网站名最近三天的国际新闻大事
  • 网站网站开发的公司培训公司排名
  • 怎么做海淘网站百度一下知道官网
  • 衡水高端网站建设海南快速seo排名优化
  • 阿里云ecs 做网站长沙网络推广软件
  • 博达网站建设教程手机关键词seo排名优化
  • wordpress 上传rar优化关键词排名seo软件
  • bootstrap制作的网站页面品牌推广策划方案怎么写
  • 做网站的公司怎么推广音乐接单推广app平台
  • 青浦专业做网站谷歌官网
  • jquery扁平自适应网站html5模板河南网站排名
  • 北京微信网站开发百度app平台
  • 苏州市建设职业中心网站企业查询网站
  • 找生产厂家的网站公司网络营销策略
  • 北京疫情很诡异就业seo好还是sem