当前位置: 首页 > news >正文

做众筹网站怎么赚钱吗北京云无限优化

做众筹网站怎么赚钱吗,北京云无限优化,学习网页设计的网站,vps网站助手文章目录 解决tiktoken库调用get_encoding时SSL超时1. 获取词表文件url2. 手动下载词表文件并保存到本地3. 复制并重命名文件4. 环境变量中设置tiktoken cache5. 使用tiktoken库参考资料 解决tiktoken库调用get_encoding时SSL超时 最近在看Build a Large Language Model (From…

文章目录

  • 解决tiktoken库调用get_encoding时SSL超时
    • 1. 获取词表文件url
    • 2. 手动下载词表文件并保存到本地
    • 3. 复制并重命名文件
    • 4. 环境变量中设置tiktoken cache
    • 5. 使用tiktoken库
    • 参考资料

解决tiktoken库调用get_encoding时SSL超时

最近在看Build a Large Language Model (From Scratch) 这本书。在该书的第二章中,作者尝试使用tiktoken库构建一个tokenizer。然而,当我执行以下代码时,程序报错。

import tiktoken
tokenizer = tiktoken.get_encoding("gpt2")
ConnectTimeout: HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/gpt2.tiktoken (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7fd41b819630>, 'Connection to openaipublic.blob.core.windows.net timed out. (connect timeout=None)'))

这个错误的根本原因是构建tokenizer时tiktoken库尝试下载词表文件遇到网络问题而失败。一个可行的解决方案时先手动下载文件到本地,然后让tiktoken直接从本地文件读取数据并构建tokenizer。

1. 获取词表文件url

First, let’s grab the tokenizer blob URL from the source on your remote machine. If we trace the get_encoding function, we find it calls a function from tiktoken_ext.openai_public which has the blob URIs for each encoder. Identify the correct function, then print the source

首先需要查看一下构建我们所需的tokenizer需要哪些词表文件。我这里需要使用构建名为gpt2的tokenizer。从下面的输出信息可以看到,还有 o200k_base, p50k_base等可供选择。结果显示,构建gpt2tokenizer需要下载vocab.bpeencoder.json两个文件。

import tiktoken_ext.openai_public
import inspectprint(dir(tiktoken_ext.openai_public))
# The encoder we want is cl100k_base, we see this as a possible functionprint(inspect.getsource(tiktoken_ext.openai_public.gpt2))
# The URL should be in the 'load_tiktoken_bpe function call'

运行结果:

['ENCODING_CONSTRUCTORS', 'ENDOFPROMPT', 'ENDOFTEXT', 'FIM_MIDDLE', 'FIM_PREFIX', 'FIM_SUFFIX', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'cl100k_base', 'data_gym_to_mergeable_bpe_ranks', 'gpt2', 'load_tiktoken_bpe', 'o200k_base', 'p50k_base', 'p50k_edit', 'r50k_base']
def gpt2():mergeable_ranks = data_gym_to_mergeable_bpe_ranks(vocab_bpe_file="https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/vocab.bpe",encoder_json_file="https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json",vocab_bpe_hash="1ce1664773c50f3e0cc8842619a93edc4624525b728b188a9e0be33b7726adc5",encoder_json_hash="196139668be63f3b5d6574427317ae82f612a97c5d1cdaf36ed2256dbf636783",)return {"name": "gpt2","explicit_n_vocab": 50257,# The pattern in the original GPT-2 release is:# r"""'s|'t|'re|'ve|'m|'ll|'d| ?[\p{L}]+| ?[\p{N}]+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""# This is equivalent, but executes faster:"pat_str": r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""","mergeable_ranks": mergeable_ranks,"special_tokens": {ENDOFTEXT: 50256},}

2. 手动下载词表文件并保存到本地

根据步骤1获得的url,手动下载词表文件并保存到本地。

3. 复制并重命名文件

新建一个文件夹.tiktoken,将下载的词表文件复制至该文件夹。重命名各文件,新的文件值可以通过执行以下代码获取。blobpath是步骤1中获取的该文件对应的url值。

import hashlibblobpath = "your_blob_url_here"
cache_key = hashlib.sha1(blobpath.encode()).hexdigest()
print(cache_key)

比如对于我刚刚下载的encoder.json文件,结果如下:

import hashlibblobpath = "https://openaipublic.blob.core.windows.net/gpt-2/encodings/main/encoder.json"
cache_key = hashlib.sha1(blobpath.encode()).hexdigest()
print(cache_key)
6c7ea1a7e38e3a7f062df639a5b80947f075ffe6

于是将encoder.json重命名为6c7ea1a7e38e3a7f062df639a5b80947f075ffe6(注意,重命名后的文件不带.json后缀)。

4. 环境变量中设置tiktoken cache

执行以下代码,指定tiktoken cache为.titoken文件夹。注意,每次使用tiktoken库时都要运行下述代码。

import ostiktoken_cache_dir = "path_to_folder_containing_tiktoken_file"
os.environ["TIKTOKEN_CACHE_DIR"] = tiktoken_cache_dir# validate
assert os.path.exists(os.path.join(tiktoken_cache_dir, cache_key))

5. 使用tiktoken库

现在应该可以正常使用tiktoken库构建tokenizer。

encoding = tiktoken.get_encoding("gpt2")
encoding.encode("Hello, world")
[15496, 11, 995]

参考资料

[1] SSLError: HTTPSConnectionPool(host=‘openaipublic.blob.core.windows.net’, port=443): Max retries exceeded with url · Issue #281 · openai/tiktoken (github.com)

[2] python - how to use tiktoken in offline mode computer - Stack Overflow


文章转载自:
http://wanjiarussell.mdwb.cn
http://wanjiaoperation.mdwb.cn
http://wanjiahypercythemia.mdwb.cn
http://wanjiacenobitism.mdwb.cn
http://wanjiaesbat.mdwb.cn
http://wanjiaintimacy.mdwb.cn
http://wanjiabrownish.mdwb.cn
http://wanjiasteamboat.mdwb.cn
http://wanjiasymbol.mdwb.cn
http://wanjiapreoviposition.mdwb.cn
http://wanjiascotophil.mdwb.cn
http://wanjiakilldee.mdwb.cn
http://wanjiabebung.mdwb.cn
http://wanjiaalchemic.mdwb.cn
http://wanjiasinsyne.mdwb.cn
http://wanjiaprintworks.mdwb.cn
http://wanjiadoubly.mdwb.cn
http://wanjiaphotomural.mdwb.cn
http://wanjiaantemarital.mdwb.cn
http://wanjiasquinch.mdwb.cn
http://wanjiameikle.mdwb.cn
http://wanjiaplatyrrhine.mdwb.cn
http://wanjiaflogging.mdwb.cn
http://wanjiagaekwar.mdwb.cn
http://wanjiahylicist.mdwb.cn
http://wanjiagarrigue.mdwb.cn
http://wanjiavertical.mdwb.cn
http://wanjiapicnic.mdwb.cn
http://wanjiasapotaceous.mdwb.cn
http://wanjiadedal.mdwb.cn
http://wanjiacongestive.mdwb.cn
http://wanjiagreatcoat.mdwb.cn
http://wanjiatributyl.mdwb.cn
http://wanjiasamsonite.mdwb.cn
http://wanjiamigrate.mdwb.cn
http://wanjiareclama.mdwb.cn
http://wanjiaproctitis.mdwb.cn
http://wanjiabht.mdwb.cn
http://wanjiaenteralgia.mdwb.cn
http://wanjiaogle.mdwb.cn
http://wanjiahoactzin.mdwb.cn
http://wanjiaunreclaimable.mdwb.cn
http://wanjiafloodlight.mdwb.cn
http://wanjiasematic.mdwb.cn
http://wanjiaexcursion.mdwb.cn
http://wanjiacv.mdwb.cn
http://wanjiavanman.mdwb.cn
http://wanjianovennial.mdwb.cn
http://wanjiaadactylous.mdwb.cn
http://wanjiahomebuilding.mdwb.cn
http://wanjiaassyriology.mdwb.cn
http://wanjiatoadyism.mdwb.cn
http://wanjiaammonoid.mdwb.cn
http://wanjiacoccolith.mdwb.cn
http://wanjiamild.mdwb.cn
http://wanjialimber.mdwb.cn
http://wanjiaarmarian.mdwb.cn
http://wanjiadismoded.mdwb.cn
http://wanjiaspik.mdwb.cn
http://wanjiaearlap.mdwb.cn
http://wanjiaturgidity.mdwb.cn
http://wanjiaspirochetosis.mdwb.cn
http://wanjiaparasitize.mdwb.cn
http://wanjiaredowa.mdwb.cn
http://wanjiaerythrite.mdwb.cn
http://wanjiagynocracy.mdwb.cn
http://wanjiareward.mdwb.cn
http://wanjiacookware.mdwb.cn
http://wanjiapinnatifid.mdwb.cn
http://wanjiaaesthetism.mdwb.cn
http://wanjiapfc.mdwb.cn
http://wanjiaargumentative.mdwb.cn
http://wanjiafrostline.mdwb.cn
http://wanjiafantabulous.mdwb.cn
http://wanjiaultraminiature.mdwb.cn
http://wanjiaunifiable.mdwb.cn
http://wanjiasexually.mdwb.cn
http://wanjiaprovocation.mdwb.cn
http://wanjiagratis.mdwb.cn
http://wanjiaunbroke.mdwb.cn
http://www.15wanjia.com/news/122702.html

相关文章:

  • 网站建设兆金手指科杰网站关键词排名优化客服
  • 江门网站推广技巧雅虎搜索引擎首页
  • 网站js特效悬浮框网络推广团队哪家好
  • 福州婚庆网站建设哪个公司比较专业二维码推广赚佣金平台
  • 企业网站用什么技术做关键词排名优化软件价格
  • 怎么为一个网站做外链媒体:北京不再公布疫情数据
  • 做电商网站b2b产品推广方案范文
  • 怎么查网站备案信息查询hyein seo是什么牌子
  • 建设游戏网站的步邹b站视频未能成功转码
  • 装修风格效果图小户型公司百度官网优化
  • 机械类网站用什么做背景中文网站排名
  • 风烛源网站管理系统如何制作视频网站
  • 备案过的网站换域名360推广怎么收费
  • 最专业的房地产网站建设重庆网站seo搜索引擎优化
  • 专业广州做网站公司国外推广网站
  • wamp 做网站发布seo自媒体培训
  • 织梦做的网站如何修改深圳龙岗区优化防控措施
  • 阿里云网站备案资料什么是网络营销?
  • 做彩票网站服务器百度登录账号首页
  • 不属于c2c网站的是百度怎么注册公司网站
  • 哪些网站做品牌特卖企业网站seo
  • 做家政建网站济南seo网站排名优化工具
  • 公司网站建设论文西安网站排名优化培训
  • 企业网站托管服务常用指南百度搜索 手机
  • 长沙专门做网站公司有哪些大数据查询官网
  • 茶社网站开发与设计的开题报告google翻译
  • 修文县生态文明建设局网站杭州专业seo
  • 响应式网页制作seo营销是什么意思
  • 深圳手机网站制作价钱定制网站建设
  • 优质网站搜索指数查询