当前位置：首页 > news >正文

网站做seo的好处网络营销促销方案

news 2025/7/14 13:04:25

网站做seo的好处,网络营销促销方案,php做公司网站,西安专业网站开发联系电话大模型是怎么被训练出来的具有人类智慧的阶段一训练-自我学习-具备知识训练资料self-supervised learning（自督导式学习） 阶段二-怎么让模型具备人的智慧supervised learning 督导式学习预训练pretrain为什么要用预训练的模型？Adapter逆向工…

大模型是怎么被训练出来的具有人类智慧的

阶段一训练-自我学习-具备知识
- 训练资料
- - self-supervised learning（自督导式学习）
阶段二-怎么让模型具备人的智慧
- supervised learning 督导式学习
- 预训练pretrain
- - 为什么要用预训练的模型？
  - Adapter
  - 逆向工程
  - 开源的Pre-train参数
参考

一个语言模型是怎么训练出来的呢？它是怎么具备人类智慧的呢？它被训练的过程中到底有些什么困难？

阶段一训练-自我学习-具备知识

我们之前就已经讲过，实际上我们要做的就是寻找一个函数，来实现一个文字接龙的功能：
它的做法，它会寻找要给函数：

输入：中国最高的山是，输出：珠
输入：中国最高的山是珠，输出：穆
…
输入：中国最高的山是朗玛峰，输出：结束符

现在我们知道要实现这个功能我们使用的是一个类神经网络，这个网络有上亿个参数，来实现这样的功能。这上亿个参数是怎么得到的呢，就是通过大量的资料学习到的，就像是人的大脑一样，很难解释每个神经元是怎么作用的，但他们确实可以和谐办公。接下来的要给问题就是到底需要多少的资料才能学会人类的语言呢，又是怎么获取这些资料的呢？

训练资料

要让一个语言模型学会对话，必须具备文法知识以及世界知识，学会文法知识才会知道，“这是一个”这样的表达后面跟的是个名词，而仅仅只有文法知识，还是不够的，所以还需要知道一些世界知识，比如体重的衡量是用公斤数，温度使用摄氏度，不同压力下水的沸点不一样等等。
在这里插入图片描述
这篇论文里面可以看得出来，知道文法知识1亿个参数足够了，但是了解世界知识至少需要300亿个以上，那这么多的资料是怎么喂给大模型的呢

self-supervised learning（自督导式学习）

实际上资料的获取并不复杂，因为网络上的资料足够了，但是怎么喂给大模型呢。通常情况下，我们需要的资料是这样的：
输入：今天天气很好输出：情感正面
也就是说这些数据是带有标签的，但是现在这么多数据我们是无法进行人工标注的。所以今天我们用的技术就是self-supervised learning（自督导式学习）。我们使用网络上爬到的资料，不需要人工标注，处理成如下格式：
比如我们搜到的是中国最高的山是珠穆朗玛峰，我们可以简单的写一个函数，把这个句子处理成：

输入：中国最高的山是，输出：珠
输入：中国最高的山是珠，输出：穆
…
输入：中国最高的山是朗玛峰，输出：结束符

这种不需要人工标注的方式，我们就称为自督导式学习。

阶段二-怎么让模型具备人的智慧

学习了那么多资料，真的就可以有很好的答案了么？
答案是否定的。在GPT-3学习了580G的资料，参数有1750亿，但是答案依然是很难尽如人意，你问它一个问题，它甚至有可能会反问你一个问题，完全没有人类的智慧，跟现在的GPT-4是完全没法比。
其实我们想想也可以知道，从网络上爬来的资料，本身就没有告诉模型，怎么样的回答才是符合人类回复的。

supervised learning 督导式学习

为了让模型具备人类回答的智慧，必须要收集人类对话，进行资料标注，来教会模型该怎么回答。
这种人类标注的训练方法，我们就叫做督导式学习，这个过程就叫做Instructing Fine-tuning
比如从人类收集到的资料：
在这里插入图片描述
对于模型来说的输入输出就是：

那你可以说，我们完全使用人力标注的资料那不是更好么？答案确实是，但是人力能够标注的资料有限的，有限的资料训练出来的参数结果可能就会很奇怪。比如你问模型，中国最高的山是什么？它很有可能告诉你是：姚明。为什么会出现这样奇怪的答案呢？很有可能是因为资料太少，它只看过这样一个资料。篮球队里最高的人是姚明。

预训练pretrain

那我们有没有更好的方式既能有大量的知识，又能够接受人类的智慧呢？
那就是pretrain，我们使用第一阶段自督导式学习得到的参数，在这个基础上再使用人类标注的数据进行督导式学习，对参数进行微调。

为什么要用预训练的模型？

因为经过预训练的模型具备很强的能力，它甚至能够达到举一反三的效果：
在这里插入图片描述
BERT模型上，如果它看过104种语言的资料，如果我们只用英文做Fine-tune，模型竟然可以做中文的QA，正确率可以达到78.7！！

但还是有一个问题，参数这么多微调一次也很费时间，另外微调过程种参数不会被修改太多，导致失去这些已经学会的知识了呢？Adapter技术就是来解决这个问题的。

Adapter

Adapter，就是字面的意思，我在原模型的基础上，我还要再加上一个适配器，适配器的参数比原来的参数要少很多，微调的过程就会变的很快，且不会影响原来的参数。整个模型的输出就是在原来模型参数的基础上，又加上了少量Adapter的参数
在这里插入图片描述
LoRA就是一种Adapter技术，Adapter其实包括了很多种可以在https://arxiv.org/abs/2210.06175上找到很多种实现
LLAMA在它的论文中，曾指出自己只需要2万多笔资料，就可以训练好一个模型了,但是还有一个问题，有了它就能训练好一个大模型了么？
答案是不能。因为我们依然还是需要优质的微调资料。