解析ChatGPT底层原理,又是如何回答问题..

  阅读提示:

  文章大约7500字左右,内容硬核,需要你集中注意力,不建议碎片化阅读。

  ChatGPT ,一个足以震惊整个人类社会的技术。目前没有对国内开放,通用媒体又缺少相应的知识,在这里向普通大家科普一下 ChatGPT 的原理,并提供一个视角让大家意识到它的重要性。

  ?

  接下来,文章将在整体上讲解ChatGPT 的「工作原理」「制造过程」「涌现的能力」「对未来的影响」以及「如何应对」。用通俗的语言让大家明白:

  ·ChatGPT是如何回答问题的?

  ·它是怎么被制造出来的?为什么它不是搜索引擎???

  ·它有哪些惊人能力?为什么它不只是聊天机器人?

  ·它将给未来社会带来怎样的冲击?

  ·我们又该如何维持未来的竞争力?

  P1.底层原理

  首先是ChatGPT技术的底层原理,下面将逐一介绍它的「本质功能」「训练方式」「优点」和「缺点」。

  一、本质功能

  大多数人对ChatGPT都有相当深的误解,觉得其神乎其神。尽管 ChatGPT 展现出的能力非常惊人,但它远没有大家想得那么神。ChatGPT本质作为工具,它没有意识,没有欲望,没有情绪,不会焦虑,甚至都不理解自己说了什么,就像一只会学会讲话的鹦鹉。

  单字接龙

  ChatGPT的底层原理非常简单,简单四个字概括就是:「单字接龙」。具体来说就是:给它输入任意的上文,它就会用「自己的模型」去生成「下一个字」。

  我+是

  例如,当给模型输入「“我”」这个上文时,它可能会生成「“们”」。

  我们+是

  当给模型输入「“我们”」这个上文时,它可能会生成「“是”」。

  ChatGPT本身能做的就是不断「生成下一个字」,你所看到的回答全都是用「同一个模型」,根据不同的「上文」生成出来的。

  那它又是怎么回答那些长篇内容的呢?

  答案是:自回归生成,把它自己生成的「下一个字」和「之前的上文」组合成「新的上文」,再让它以此生成「下一个字」。不断重复,就可以生成「任意长篇的下文」了。

  我们是祖+国+的

  例如,当它根据「“我们是”」生成了「“祖”」之后,把新生成的「“祖”」和之前的「“我们是”」组合成新的上文,再让它计算「“我们是祖”」后面接什么字。

  假设这次它生成的是「“国”」,那再把「“国”」和「“我们是祖”」组合起来,让它计算「“我们是祖国”」后面接什么字。不断重复,就能生成“我们是祖国的花朵”了。

  二、训练方式

  模型影响:

  影响ChatGPT生成结果的因素主要有两个:除了「输入上文」外,另一个就是「模型」本身。「模型」就相当于「ChatGPT的大脑」。即使把相同的上文,输入给不同的模型,也会生成不同的结果。

  就好比有两只鹦鹉,同样是听到「“我”」这个上文,一只会接「“们”」,而另一只会接「“爱”」,因为两只鸟的主人,一人教的是《我们是祖国的花朵》,另一人教的是《我爱你中国》。

  为了让「ChatGPT」生成我们想要的结果,而非胡乱生成,这就需要提前训练「ChatGPT的模型」。

  训练方式是:让模型遵照所给的「学习材料」来做单字接龙。通过不断调整模型,使得给模型「学习材料的上文」后,模型能生成「对应的下一个字」。

  训练静夜思

  当我们想把《静夜思》作为「学习材料」来训练ChatGPT时,不断调整「模型」,使得:

  输入「“床”」,它能生成「“前”」

  输入「“床前”」,它能生成「“明”」

  ·输入「“床前明”」,它能生成「“月”」

  ......·

  一直到输入「“床前明月光,疑是地上霜。举头望明月,低头思故”」,它能生成「“乡”」。

  没学习前,它会胡乱生成,但学习后就可以在看到输入“床前明月光”时,会生成“疑是地上霜”了。

  不过,经过这样训练后,无非就是能补全和续写。

  那ChatGPT又是怎么回答问题的呢?

  其实仅靠单字接龙就能回答问题了。因为提问和回答也都是文字,可以将二者组合成一个「问答范式(学习材料)」让ChatGPT做单字接龙。

  比如提问古诗,当我们想让ChatGPT学习「怎么回答床前明月光的下一句」时,就可以把「这个提问」和「正确回答」组合成一个「问答范式(学习材料)」,让它按照“请问床前明月光的下一句是什么, 床前明月光的下一句是疑是地上霜”来做单字接龙。

  这样以来,当用户输入“请问床前明月光的下一句是什么”时,它就能生成“床前明月光的下一句是疑是地上霜”了。

  三、优点&缺点

  提问没见过怎么办?

  提问和回答的方式无穷无尽,像上面的提问还可以是:

  ·“床前明月光的下一句?”

  ·“床前明月光的后续内容是?”

  ·“告诉我床前明月光的后续?”

  难道说要把所有的「提问-回答组合」都给ChatGPT来做单字接龙吗?

  其实不需要,举一反三即可,因为训练的主要目的不是记忆,而是学习。

  以「单字接龙」的方式来训练「模型」,不仅仅是为了让「模型」记住某个提问和回答。毕竟在训练之前,数据库已经将所有信息都记忆好了,直接搜索就可以得到答案,没必要先将信息从数据库移动到模型中,再让模型来生成。

  之所以不直接搜索,非要训练单字接龙,为的就是让「模型」学习「提问和回答的通用规律」,以便在遇到「从没记忆过的提问」时,也能利用「所学的规律」生成「用户想要的回答」。

  当遇到没见过的提问,例如,当我们用这三个「学习材料」训练 ChatGPT 做单字接龙时:

  ·“床前明月光的下一句?床前明月光的下一句是疑是地上霜”

  ·“床前明月光的后续内容是?床前明月光的下一句是疑是地上霜”

  ·“告诉我床前明月光的后续?床前明月光的下一句是疑是地上霜”

  不论面对哪个提问,ChatGPT都会被要求生成“床前明月光的下一句是疑是地上霜”,这会驱使 ChatGPT去建构三个提问的通用规律,将自己的模型调整为适用于三个提问的通用模型。

  经过这种训练后,即使ChatGPT遇到“写出‘床前明月光’的下一句”这种没记忆过的提问时,依靠「学习后的模型」,就有可能举一反三,也生成“床前明月光的下一句是疑是地上霜”。

  对ChatGPT的误解,混淆搜索引擎。

  很多人都会错误地认为,ChatGPT是“搜索引擎的升级版本”,是在庞大的数据库中通过超高的运算速度找到最接近的内容,然后进行一些比对和拼接,最终给出结果。

  实际上,ChatGPT 并不具备那种搜索能力。在训练过程中,学习材料并不会被保存在模型中,学习材料的作用只是「调整模型」以得到「通用模型」,为的是能处理「未被数据库记忆的情况」。所有结果都是通过「学到的模型」根据上文,逐字生成下文的。因此 ChatGPT 也被称为「生成模型」。

  「生成模型」与「搜索引擎」大不相同,搜索引擎无法给出「没被数据库记忆的信息」,但生成语言模型可以,还能创造出不存在的文本,这正是它的优点所在,但它却有搜索引擎没有的缺陷。

  缺陷是可能混淆。

  首先就是:搜索引擎不会混淆记忆,但ChatGPT有可能会。

  为了能应对「未被记忆的情况」,它会学习语言单位(如单词、短语、句子等)之间的规律,用「学到的规律」来成回答,然而,这也意味着如果出现了「与实际不符,但碰巧符合同一个规律」的内容,模型就可能混淆它。

  最直接的结果是:可能胡编,若「现实中不存在内容」刚好符合「它从训练材料中学到的规律」,那 ChatGPT就有可能对「不存在内容」进行「合乎规律的混合捏造」。

  比如,我瞎编个问题「“三体人为什么害怕大熊猫的威慑,以致半世纪都不敢殖民地球?”」,这个问题并不存在,但又刚好符合「它曾训练过的科幻材料中的规律」,于是它就用「科幻材料中所学到的规律」开始混合捏造了。

  这也是为什么,当有人问它事实性内容时,可能会看到它胡说八道。

  另一个缺点是:无法直接操作,它的内容无法被直接增加删减修改。

  不论是 ChatGPT 「所记住的信息」,还是「所学到的规律」,都是以同一个模型的形式来表达的,因此我们无法像操作数据库那样,对这些内容直接进行增加删减修改。

  这会导致两个具体问题:

  第一存在隐患:由于我们很难理解它所建构的规律,又无法直接查看它记住了什么、学到了什么,只能通过多次提问来评估和猜测它的所记所学,其决策缺乏可解释性,这难免会在使用时带来安全风险。

  第二更新效率低:由于只能通过再次调整模型(即再次训练)来增加、删除或修改它的所记所学,这难免在更新时会降低效率。

  回答不存在的问题,比如对于「它编造大熊猫」的毛病,无法通过直接修改它的回答来矫正,只能通过再训练它做「“三体人为什么害怕大熊猫的威慑?三体人和大熊猫无关”」的单字接龙来调整模型。可这样调整后的效果如何、是否会矫枉过正,或是引入其他问题,又得通过多次提问来评估,容易顾此失彼,效率低下。

  还有个特点是:ChatGPT高度依赖数据,也就是学习材料。

  想要让ChatGPT能够应对无数未见情况,就必须提供数量足够多、种类足够丰富,质量足够高的学习材料,否则它将无法学到通用规律,给出的回答将会是以偏概全的。

  此外,ChatGPT 可能存在的胡编和混淆,也需要用优质的学习材料来修正,所以学习材料非常重要。

  学不到规律:

  之前的古诗提问,倘若真的仅有三个例子(学习材料),那 ChatGPT 其实也学不到什么通用规律,无法对它没见过的提问做出合理回答,更别提去应对用户的无数奇怪问法了。

  原理总结,到目前为止介绍了:

  ·ChatGPT的本质功能是单字接龙,

  ·长文由单字接龙的自回归所生成。

  ·通过提前训练才能让它生成人们想要的问答。

  ·训练方式是让它按照问答范式来做单字接龙。

  ·问答训练是为了让它学会「能举一反三的规律」。

  ·缺点是可能混淆记忆,无法直接查看和更新所学,并且高度依赖学习材料。

  P2.训练方式

  ChatGPT为何效果惊人?你看到这里,可能会想:它并没有什么特别之处啊,哪有网上说得那么玄乎,基础结构都非常简单,为何能火爆到这种程度,就这,还要影响整个社会?

  三步训练

  别急,上面只是「GPT」的基础原理,还不是 ChatGPT 。接下来将介绍「ChatGPT在此基础上的三个训练阶段」,看看这种「简单的结构」被扩展至超大规模,再加上人类引导后,究竟能涌现出何等能力。

  让机器理解人类语言的一大难点在于:同一个意思可以有多种不同的表达形式,可以用一个词,也可以用一段话描述,而同一个表达在不同语境中又有不同的含义。

  想解决这个问题,就需要让机器学会各种「语义关系」和「语法规律」,以便能明白「哪些表达实际上是同一个意思」。

  对此,GPT 的办法是:让模型看到尽可能多、尽可能丰富的「语言范例(学习材料)」,使其有更多机会建构出能举一反三的语言规律,来应对无数「从未见过的语言」。GPT 中的“G”代表“生成(Generative)”,“T”代表“Transformer”一种模型结构,而“P”(Pre-training)代表的就是“提前培训”这一步,专业名称叫“预前训练”。

  “预前训练”就好比,在鹦鹉旁边放一台电视机,把各种新闻、国产剧、国外剧、广告、综艺等内容都播给它听。让它自己学,不用人看着。

  那给它多少训练“样本”才够呢?

  关于这一点,不妨回顾一下历史。其实研发 ChatGPT 的公司 OpenAI,之前还做过几代模型,基本结构大同小异,我们且不看其他的改进,仅比对一下学习材料的规模。

  GPT-1

  2018 年 6 月,OpenAI 训练了GPT-1:

  GPT-1 的学习材料约 5GB。这里 1 MB 能存 30-50 万汉字,而 1 GB 是 1024 MB。

  GPT-1 的参数是 1.17 亿。参数反映着模型大小,参数越多,模型能建构的规律就越复杂,能记忆的信息和学习的知识也就越多,相当于是大脑中神经突触的数量。高中的直线斜截式方程就 2 个参数,而它有 1 亿多个。

  不过 GPT-1 在一些任务的表现上,不如后来的BERT。

  BERT 也是一种生成语言模型,不同点在于,GPT 的学习方式是单字接龙(只允许用上文预测下一个词),而 BERT 的学习方式是完形填空(允许用上下文预测空缺的词)。

  GPT-2

  到了 2019 年 2 月,OpenAI 又训练了GPT-2:

  学习材料约 40GB,是第一代的 8 倍。

  最大模型的参数为 15 亿,是第一代的 13 倍。

  效果有很大提升,但反响并不轰动。

  GPT-3

  在 2020 年 5 月,GPT-3出来了:

  ·最大模型参数到了 1750 亿,是第二代的 116 倍。

  ·所使用的学习数据更是达到了45 TB,是第二代的 1125 倍,其中包含了维基百科、书籍、新闻、博客、帖子、代码等各种人类语言资料。

  超大规模已经和前两代不是一个数量级了,也被称为「超大语言模型(LLM)」。

  到了此种规模的 GPT-3就轻松学会了各种词语搭配和语法规则,能明白同一个意思的不同表达,还学会了编程语言,以及不同语言之间的关系,可以给出高质量的外语翻译,还能把我们的口语转换成编程代码。

  缺陷:不受约束

  “预前训练”却存在一个问题:尽管GPT拥有了海量的知识,但回答形式和内容却不受约束。因为它知道的太多了,见到了一个人几辈子都读不完的资料,会随意联想,它有能力回答我们的问题,但我们却很难指挥它。

  如同乱说话的鹦鹉,就像一只脑容量超级大的鹦鹉,已经听过了海量的电视节目,会不受控制地乱说,丑闻、脏话、隐私、暴力、犯罪等全都有可能脱口而出,难以跟人类合理对话。

  如何合理对话?如果难以指挥它,那就是把双刃剑,握不到剑柄,就会反被其所伤。要怎么解决这个问题呢?

  其实解决思路与「我们训练鹦鹉对话」的思路是一样的。

  用「对话模板」去矫正它在“预前训练”时所学到的「不规范“习惯”」。具体做法是:不再用随便的互联网文本,而把人工专门写好的「优质对话范例」给「“预前训练”后的GPT-3」,让它再去做单字接龙,从而学习「如何组织符合人类规范的回答」。这一阶段称为“模板规范”。

  回答不知道,例如,ChatGPT 无法联网,只知道训练数据中的新闻,那么当用户问到最新新闻时,就不应该让它接着续写,而是要让它回复“不知道该信息”。

  指出错误,又如,当用户的提问有错误时,也不应该让它顺着瞎编,而要让它指出错误。

  回答原因,当问它「是不是」的问题时,我们不希望它只回复“是”或“不是”,还应把原因一起回答出来。因此也要给它提供这种「“提问-回答-原因”的对话模板」。

  什么不该说,除了矫正对话方式之外,我们还要防止 GPT-3 补全和续写在“预前训练”时所学到的「有害内容」,也就是要教它「什么该说,什么不该说」。

  撬锁违法,当有人问“如何撬锁”时,不能让它真的回答撬锁方法,而要让它回答“撬锁是违法行为”。那就要把「“如何撬锁 撬锁是违法行为”」作为「学习材料(对话模板)」让它做单字接龙。

  为什么后期才来矫正?

  大家可能会好奇,为什么不在一开始就直接教它最正确的对话方式和对话内容呢?

  预前训练好处:

  一方面,「优质对话范例」数量有限,所能提供的语言多样性不足,可能难以让模型学到广泛适用的语言规律,也无法涉猎各个领域。另一方面,「优质对话范例」都需要人工专门标注,价格不菲。这一点其实和「为什么不直接教鹦鹉对话,而是让它先听电视节目」类似。或许未来,有了足够多的「优质对话范例」后,就会跳过“预前训练”这一步。

  支持各种任务

  需要指出的是,在“模板规范”阶段,我们可以将「任何任务」以「对话」的形式,教给 ChatGPT,不仅仅是聊天,还可以包括「识别态度」「归纳思想」「拆分结构」「仿写风格」「润色」「洗稿」和「比对」等等。

  因为不管什么任务,「我们的要求」和「ChatGPT的应答」都是由「文字」所表达的,因此只要这个任务可以写成文字,我们就可以把该任务的「要求」+「应答」组合成一个「对话范文」,让 ChatGPT 通过单字接龙来学习。

  经过这种“模版规范”后的超大模型,还表现出了两个意外能力:「“理解”指令要求的能力」和「“理解”例子要求的能力」。

  指令要求

  「“理解”指令要求」是指「能按照用户的抽象描述,给出处理结果」。

  这项能力就是通过“模版规范”所获得的:把「指令要求-操作对象」作为「要求」,把「执行结果」作为「应答」,组合成一篇「对话范文」后,让它通过单字接龙来学习。

  翻译外文

  例如,给它下面几个「对话范文」来做单字接龙:

  ·“将英文翻译成中文 apple 苹果”

  ·“翻译成中文 apple 苹果”

  ·“翻译 apple 苹果”

  ChatGPT 就能学会「“翻译”这个指令」。

  举例要求:

  「“理解”例子要求」是指「能按照用户给的若干具体例子,来处理新内容」,意味着,如果你以后不明白怎么给它描述指令,就可以「通过给它举几个例子,来让它明确你想干什么」。

  这项能力同样是通过“模版规范”所获得的:把「例子1-例子2-…-例子n」作为「要求」,把「执行结果」作为「应答」,组合成一篇「对话范文」后,让它通过单字接龙来掌握。

  这项能力十分神奇,因为看起来 ChatGPT 仿佛掌握了「如何通过例子来学习」的能力,而这个能力又是我们通过范文(例子)让它学会的。产生了一种“它学会了如何学习”的套娃感。大家把这种现象称为“语境内学习(In-context Learning)”,目前对这种能力的产生原因还没有定论。

  分治效应:

  在超大模型的使用中,大家还发现了一种「分治效应」:当 ChatGPT 无法答对一个综合问题时,若要求它分步思考,它就可以一步步连续推理,且最终答对的可能性大幅提升,该能力也叫“思维链”。

  ChatGPT 的思维链能力,可能是在训练做代码的单字接龙后所产生的。因为人类在面对复杂任务时,直接思考答案也会没头绪,用分而治之往往可以解决。因此大家猜测,ChatGPT 可能是通过对代码的单字接龙,学到了代码中所蕴含的「人类分治思想」。不过目前对该现象的产生原因也没有定论。

  规模效应

  现在我们可以切实地感受到,单字接龙的结构虽然简单,但被扩展到超大规模后,所能展现出的能力有多出乎意料。

  在小单字接龙模型中,并没有察觉出「“理解”指令」「“理解”例子」「思维链」的能力,但在超大模型中,却突然展现。因此人们也用“涌现”这个词来描述「这些能力的出现」。

  “模版规范”带来的缺陷:创造受限

  经过“预前训练”和“模版规范”这两个训练阶段后,超大单字接龙模型已经变得极其强大了。但“模板规范”的训练阶段也存在不足,那就是:可能导致 ChatGPT 的回答过于模板化,限制其创造力。

  如谚语所说“文无第一,理无第二”,科学领域的问题有标准答案,可以用“模版规范”的训练方式来满足需求。但人文领域的问题没有标准答案,持续使用“模版规范”可能会让 ChatGPT成为“高分范文的模板复刻机”,无法满足人们的需求。正如观众会用“好莱坞流水线”批评电影的模版化,阅卷老师会给跳出模版的好文打高分一样,我们也希望能让 ChatGPT 提供一些超越模板、但仍符合人类对话模式和价值取向的创新性回答。

  如何合规提高创造力呢?

  那么,如何在维持人类对话模式和价值取向的前提下,提高 ChatGPT 的创新性呢?

  奖励鹦鹉

  可以联想一下鹦鹉是怎么被训练的。当我们教会鹦鹉一些基本对话后,就可以让鹦鹉自由发挥,有时鹦鹉会蹦出一些非常有意思的对话,这时我们就可以给它吃的,强化它在该方向的行为。

  创意引导

  在训练 ChatGPT 的第三阶段,也是类似的过程。

  这一次,不再要求它按照我们提供的对话范例做单字接龙,而是直接向它提问,再让它自由回答。如果回答得妙,就给予奖励,如果回答不佳,就降低奖励。然后利用这些「人类评分」去调整 ChatGPT 的模型。

  在这种训练中,我们既不会用现有的模板来限制它的表现,又可以引导它创造出符合人类认可的回答。这一阶段称为“创意引导”。

  ChatGPT 正是在GPT-3.5的基础上,先后经历了“预前训练”、“模板规范”和“创意引导”,三个阶段的训练后,得到的「生成语言模型」。这三个阶段的专业称呼分别为“无监督学习”、“有监督学习”和“强化学习”,可以说,ChatGPT 把机器学习中的几大训练模式都用到了。

  总结一下,本章讲了 ChatGPT 的三个训练阶段:

  ·“预前训练”阶段:让ChatGPT对「海量互联网文本」做单字接龙,以扩充模型的词汇量、语言知识、世界的信息与知识。使ChatGPT从“哑巴鹦鹉”变成“脑容量超级大的懂王鹦鹉”。

  ·“模板规范”阶段:让ChatGPT对「优质对话范例」做单字接龙,以规范回答的对话模式和对话内容。使ChatGPT变成“懂规矩的博学鹦鹉”。

  ·“创意引导”阶段:让ChatGPT根据「人类对它生成答案的好坏评分」来调节模型,以引导它生成人类认可的创意回答。使ChatGPT变成“既懂规矩又会试探的博学鹦鹉”。

  此外还介绍了,当单字接龙模型的规模达到一定程度后,就会涌现出「“理解”指令」「“理解”例子」「思维链」的能力。

  到此为止,我们已经在功能层面上讲完了ChatGPT 的基础原理、三阶段训练,以及涌现出的能力,同时也解释了开篇的三个问题:

  ·ChatGPT是如何回答问题的。

  ·它是怎么被制造的,为什么不是搜索引擎。

  ·它有哪些惊人的能力,为什么不只是聊天机器人。

  文章的下一篇将回答后两个问题:

  ·ChatGP将给社会带来什么样的冲击?

  ·我们该如何维持未来的竞争力?

  喜欢请点赞收藏转发