段永朝

  【按】本文通过阅读GPT相关论文并与GPT实时多轮交互后撰写,一共涉及约50轮问答;本文内容采用与ChatGPT多轮重复问答的方式,对问答结果经编辑整理而成。部分内容已综合混辑多轮问答的结果,应能辨认出机器回复的痕迹,故未加引号;除此之外,尽可能给出原文引用,请各位朋友明察。全篇总计19585字。

  目录

  GPT概述

  第一个问题:蛮力计算

  第二个问题:生成语法规则的有效性

  第三个问题:对齐问题

  第四个问题:语义和理解问题第五个问题:可解释问题第六个问题:非英语语系问题

  第七个问题:黑箱模型问题第八个问题:能耗与文化冲击问题

  第九个问题:认知风险第十个问题:知识库更新和退化问题

  大语言模型是一种基于深度学习的语言模型,通常指的是具有大规模参数数量和复杂网络结构的语言模型,例如GPT(Generative Pre-trained Transformer,生成式预训练转换器)。大语言模型通常采用神经网络结构,并通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习到语法、句法、语义等多层次的语言规律。

  与传统基于语法规则、句法规则的语言模型相比(如N-gram模型、隐马尔可夫模型HMM、组合语法模型等),大语言模型是一种基于深度学习技术的语言模型。在GPT看来,与传统自然语言处理方法相比,大语言模型具有以下不同之处:

  1)数据驱动:大语言模型主要依赖于大规模的文本数据进行训练,自动从数据中学习语言的统计规律,而不是依赖于手工编写的语法规则或句法规则。

  2)灵活性:大语言模型在语言处理任务中具有较大的灵活性。传统基于语法规则、句法规则的语言模型通常依赖于预定义的语法规则,对于不符合规则的语言表达形式可能无法处理。而大语言模型可以通过学习大量的数据,从中学到语法和句法的统计规律,从而对各种不同形式的语言表达具有一定的容忍性和适应性。

  3)泛化能力:大语言模型通过大量的数据训练,可以更好地捕捉到语言中的潜在模式和规律,从而在面对新的、未见过的语言表达时具有一定的泛化能力。而传统基于语法规则、句法规则的语言模型通常需要人工编写和维护规则,对于未见过的语言表达可能表现较差。

  4)自监督学习:大语言模型通常通过自监督学习的方式进行训练,即从大量未标注的数据中自动学习语言的规律。而传统基于语法规则、句法规则的语言模型通常需要人工标注大量的数据用于训练,成本较高。

  5)应用广泛:大语言模型广泛应用于自然语言处理领域的多个任务,如语言生成、文本分类、情感分析、机器翻译等。而传统基于语法规则、句法规则的语言模型通常较为专用,仅适用于特定的语言处理任务。

  总的来说,GPT在比较大语言模型和传统自然语言处理方法时,所持观点较为积极和正面,认为大语言模型通过数据驱动的方式,具有较大的灵活性、泛化能力和应用广泛性,相较于传统基于语法规则、句法规则的语言模型更具优势。这一特性相信体验过GPT等大语言模型的朋友都会有认同感。但是,值得注意的是GPT在回答、交流这些问题的时候,所采用的术语、概念,以及所形成的篇章句子,在人的视角进行解读和理解的过程中,仍然需要细心甄别GPT谈论相关问题背后所持的“立场”和隐性的叙事逻辑。这也是本文在对话、编撰的过程中,采用多轮重复提问的原因。当然单轮对话具有另一番意味,即单轮对话可以呈现GPT的“第一反应”,而不是反复“盘问”之后可能存在的“修饰”和“猜测”的意味。

  笔者在此之前曾试用过单轮和多轮(5轮-10轮)对话的差异,主要有这样几点:

  1)首轮对话当追加新一轮对话后,往往能呈现更多细节;

  2)四到五轮对话之后,对话内容不再有实质性的差异;

  3)前三轮对话往往显示出GPT对提问者问题着力点的某种“猜测”,比如需要更多细节,需要从不同的角度归纳回答问题的方式,需要给出不同的选择方向等。

  4)无论单轮和多轮对话,笔者尚未遇到GPT反问提问者的情况,也就是GPT通过反复询问,确认提问者的“意图”。不知道是否是版本的局限性。笔者试用的是GPT3.5的版本。GPT的技术模型,坊间流传的相关论文大约有十篇左右。这些论文基本都是从技术角度描述GPT的框架和原理,缺乏相应的语言学、符号学原理的引用和解释。GPT公开表述的用语虽然涉及大量句法分析、语法分析、语义分析和上下文语境分析的说法,但这些用语有一定的误导性。换句话说,GPT并未严格遵从相应的语言学符号学分析惯例,而是直接采用海量语料库训练、大规模并行计算的“蛮力计算”、概率分析的方式。这样一来,GPT虽然有十足靓眼的表现,但其内在机理所决定的GPT方法论,尚需要进一步深度分析,以便厘清其中蕴含的假设和存在的问题。

  GPT概述

  GPT声称其基本原理基于统计语言学的思想,通过对大量文本数据的统计分析和建模来学习语言的概率分布,从而生成具有语法和语义合理性的文本[1]。比如经典的n-gram模型、隐马尔可夫链模型HMM等[2]。语言模型是自然语言处理中的经典问题,涉及到概率统计、马尔可夫链等概念[3]。

  GPT明确回答说,GPT“语言建模的核心思想,是通过大量语料库训练获得对生成文本中,下一个词或字符的概率的预测能力”。在GPT中,通过使用Transformer架构进行自监督学习,即使用大量无标签文本来训练模型预测下一个词的概率,从而实现语言建模[4],具体的方法包括自注意力机制和前馈神经网络。Transformer模型的强大预测效率来自其独创的自注意力机制,用来处理输入序列中的不同位置之间的依赖关系,从而实现了并行化的序列处理[5]。GPT本质上是一种基于概率的语言模型,通过学习文本数据中的概率分布来生成文本。GPT中的模型参数通常通过最大似然估计(Maximum Likelihood Estimation)来进行训练,这涉及到概率统计和统计语言学中的一些基本原理,如条件概率、熵、交叉熵等[6]。

  GPT详细介绍了它所使用的建模方法和其中的关键技术。GPT使用预训练和微调的两阶段方法,首先在大规模文本数据上进行预训练,然后在特定任务的小规模数据上进行微调。这种方法可以提高模型的泛化性能和生成能力,使得模型可以从大量数据中学习通用的语言学知识,并在特定任务上进行迁移学习[7]。GPT的预训练阶段受到了BERT的启发。BERT模型,它是一种双向的基于Transformer的语言模型,通过预训练大规模无监督数据来学习通用的语言表示,从而能够在多种下游任务中进行微调[8]。

  GPT在预训练和微调,以及条件生成的过程中,主要运用的语言学原理,一种叫词嵌入(Word Embedding)方法,另一种是上下文建模。

  词嵌入是一种将词语映射到低维实数向量空间的技术,用于表示词语的语义信息,是一种基于分布式表示的方法,涉及到向量空间模型、词义学、语义学等语言学原理。GPT-3.5可能在其算法中使用了词嵌入技术,例如将输入的文本转换为词嵌入向量来进行模型的处理和生成[9]。词向量表示是将词语映射到连续向量空间的技术,用于在模型中表示词语,GPT将文本中的单词映射到连续向量空间中,从而能够捕捉到单词之间的语义关系。GPT使用了基于Transformer的自注意力机制来学习词向量表示,将词语嵌入到高维连续向量空间中,从而可以在模型中进行高效的计算和表示。这些向量表示在自然语言处理任务中被广泛应用,包括在GPT模型中用于表示输入文本。其中引用了语言学中的词义学、语法等概念,以及符号学中的向量表示、概率建模等原理。

  ChatGPT的工作过程大致是这样的:在得到用户输入的一句话、一个提问、一个提示词组,或者一篇文章之后,GPT开始完成后台一系列文本编码、模型推理、内容生成、输出解码的步骤,最终输出用户想要的内容。

  ChatGPT与用户交互的重要基础,就是GPT反复提到的“通过预训练和微调方法获得的大语言模型(LLM)”。GPT的大语言模型,使用了深度神经网络(通常是基于Transformer架构)来进行文本编码和生成,模型通过自监督学习对大量的未标注文本进行建模,通过训练和人工反馈的微调方法,学习到了语法、语义、语境等知识,并利用这些知识来生成合法的文本。这个模型经过训练后具备丰富的语言模式,包括文本的语法、语义和上下文信息,以及统计规律,从而具备对根据输入文本的语义分析,针对性地生成合法句子、篇章,响应用户需求的能力。

  在输入文本处理时,GPT将输入文本通过模型的编码器部分,转换为模型内部的向量表示(即前面所称的“词嵌入”),生成词向量,也称为隐藏状态或编码表示,并采用上下文建模方法,通过对输入文本进行编码,将上下文信息传递给模型,以便模型在生成输出时考虑输入的上下文信息,这包括对词语、短语、句子等进行语义理解、语法分析、语境处理等。在内容输出过程中,GPT使用生成技术,例如循环神经网络(RNN)或者变种的Transformer等,以生成文本输出。GPT进一步解释说,“通常根据某种策略选择一个最合适的输出作为最终的响应。选择的策略可以是基于概率、语法、语义、逻辑、用户意图等多个因素。”

  在整个GPT使用的用户交互过程中,GPT通常不调用特定的数据资源,例如外部知识库或者数据库。其生成的内容主要基于预训练模型在大量文本数据上学习到的语言模式和统计规律,而不依赖于特定的数据资源。

  GPT说明了在训练过程中使用了大量的文本数据作为数据资源,例如维基百科、网页文本、书籍、新闻文章等,用于训练模型的语言模型部分。此外,GPT还可以根据应用场景和需求,调用其他外部数据资源,如知识库、情感词典、实体识别等,用于生成特定领域或情感的文本,结合其他技术和资源,如情感分析、实体识别、关键词提取等,以生成更加符合特定需求和目标的文本输出。但GPT拒绝回答进一步的细节和引用任何数据来说明这个问题。

  需要注意的是,每次收到用户输入的请求,GPT需要动用计算资源来进行文本编码、上下文建模和文本生成等操作。具体的计算资源要求会根据模型的规模、输入文本的长度、生成的文本长度等因素而有所不同。较大规模的GPT模型通常需要更多的计算资源来处理复杂的语境和生成更长的文本。使用中多次体验到部分问答过程并不顺畅,GPT常出现莫名其妙的“停顿”、“中断”现象。

  GPT印证了笔者的一个猜测,即“在实际应用中,GPT通常不需要完整计算一遍整个语料库。事实上,GPT在训练阶段已经通过大规模的文本数据进行了预训练,并学习到了语法、语义、语境等知识。在生成时,GPT会利用这些预训练的知识,并根据当前的输入文本和生成的上下文来生成合适的文本输出,而不需要重新计算整个语料库。”

  此外,GPT还可以利用类似的问答数据来提高回答的效率。例如,当收到类似的问题或者类似的上下文时,GPT可以从之前生成的文本中提取相关的信息,避免重复计算相同的内容,从而加速回答的生成过程。需要注意的是,具体的计算资源和数据资源的需求会因不同的应用场景、模型规模和输入输出要求而有所差异,需要根据实际情况进行配置和调优。

  不过,令人称道的是GPT很少不对同一问题做出完全雷同的回答,偶然出现这一现象,或许是提问者的问题太过具体或者比较单一。

  根据与GPT的多轮对话,梳理并编辑成下列10大问题,与各位朋友分享。

  GPT的十大问题

  第一个问题:蛮力计算

  之所以称GPT是“蛮力计算”, 是因为GPT生成输出内容的过程,通常模型通过对语料库的学习,选择一个合法的起始词作为句子的第一个词。然后根据当前生成的词和上下文信息,计算生成下一个词的概率分布,并从中采样得到下一个词,它实际上是一个不断重复、迭代的过程。模型通过对当前上下文的建模,计算生成下一个词或短语的概率分布,并从中采样得到生成的词或短语。这个生成过程可以通过一系列的循环来不断迭代,生成更长的文本。选择的输出经过解码技术,例如将数字表示或者词向量表示转换为文本形式,以便于用户理解和使用。在生成的过程中,可以根据语法规则、语法知识、语义角色标注等信息对生成的词进行限制和约束,以确保生成的句子在语法和语义上是合法的。

  有趣的是,如果直截了当指认GPT属于“蛮力计算”,GPT是断然否定的。在3月16日提问者向GPT提出的48个问题中,第四个问题是:“请问GPT的原理说到底是否属于蛮力计算?”GPT的回答是:

  “GPT 的原理并不属于蛮力计算。GPT 使用的是神经网络模型,它是一种基于数学优化的算法,通过数学计算和优化来实现对输入和输出之间复杂映射的学习。”

  “GPT 是一种基于Transformer结构的神经网络模型,它使用自回归语言模型来生成自然语言文本。在训练过程中,GPT通过最小化损失函数来学习模型的参数,使得模型在给定前文的情况下,能够生成下一个最可能的单词或字符。这个过程使用的是反向传播算法,它通过计算损失函数的梯度来更新模型参数,实现模型的训练。”

  “虽然GPT模型参数数量很大,但是它并不是通过蛮力计算来实现的。在训练和推理过程中,GPT 模型利用了高效的矩阵计算和并行计算,从而实现了高效的计算和推理。因此,GPT的原理和实现并不属于蛮力计算的范畴。”

  GPT列举了它眼里的典型的蛮力计算方法,比如穷举法、暴力搜索、贪心算法等;并列举了它认为不属于蛮力计算的例子,比如动态规划算法、启发式算法等。粗略地说,GPT的回答是说得过去的。但是,动态规划、启发式算法基本都是建立在一些假设基础上的近似算法,即运用优化理论划分子空间、假设“无后效性(即节点前状态不影响节点后状态)等,以便获得局部最优或者部分情况下的全局最优解。且不说各种优化算法仍然受条件局限,这些算法在超大规模维数爆炸的时候,依然表现效率低下,且难以确保最优解的存在性。

  其实笔者也发现,与GPT深入探讨蛮力计算的一些深度问题,它也只能提供“面儿上”的回答。当然,也许提问方式还需要更加专业化吧。感兴趣的专业人士不妨继续追问GPT。

  第二个问题:生成语法规则的有效性

  GPT生成的语法是否合乎语法规则,是使用者直观感受的重要基础。从表现上看,GPT可谓对答如流,无论英文问答还是中文问答(增加翻译过程),都具备可接受的程度。也正是这一点,有人据此判断“GPT通过图灵测试”,我觉得言之过早。

  GPT对这一问题的回答是:“GPT通常是通过在训练时学习到的语法知识和句法知识来判断的,而非基于预先定义的固定判定规则。”这意味着GPT作为一种大语言模型,通过在大量的文本数据上进行自监督学习,从中“学习”到了语言的统计规律、上下文依赖关系以及句法结构等信息。虽然在GPT中也“使用”了传统语言模型的语法分析、句法分析、词法分析和语义分析的概念和方法,但GPT的主导思想并非严格遵从这些语言学方法,只是将这些方法作为产生合法句子的参考标准。

  在生成文本时,GPT会根据之前的上下文和当前的生成状态,选择最有可能的下一个词或短语。这种选择通常是基于训练时学习到的语法和句法知识,例如词的概率分布、上下文中的共现关系、句法规则等。GPT会生成那些在训练数据中出现频率较高、符合上下文和句法规则的词或短语。

  这就是说,GPT所“说”的“学习”、“使用”等等词语,并非是人类自然语言交流中所理解的那个含义。对机器而言,它只是做概率计算和符号匹配。这一点在GPT的回应过程中,进行了“类人式语言包装”,也就是说,GPT大模型中所发生的真实过程,虽然从设计角度说,包含“词汇、句法结构、语法规则”等多层次的“语言知识”,但在文本输出过程中,GPT只是完成一个“转换、词语装配”的过程。

  在这个过程中,模型可以“表现出”对所谓“正确的”、“错误的”文本进行甄别、分类和选择,最终“优化”成满足提问者需求的“文本”,但它绝不是在语言学意义上“使用”这些词汇。

  GPT承认,“模型在训练过程中会根据不同样本的预测错误程度来调整自身的参数,从而逐渐优化生成的文本。这样,模型可以在大规模文本数据中学习到一些普遍的语法和句法规律,但并不保证学到的规律完全符合传统的语言学规范。”

  对GPT来说,真正起作用的生成规则,依然是基于海量语料库的概率计算。换句话说,“GPT和类似的语言模型通常是通过大规模预训练来学习语法和句法知识的,这意味着模型在训练过程中通过对大量文本数据的学习,自动地从数据中提取语法和句法规律,而不是依据预先定义的语法规则。GPT和类似的语言模型在学习中并不显式地确认所学到的语法规则和句法规则是否合乎语言学规范。这些模型通过在大量文本数据上进行自监督学习,通过预测下一个词或下一个片段的方式进行训练,从而学习到了语法和句法规律。这些规律是从数据中统计性地提取的,而不是直接根据预先定义的语法规则进行学习。”

  我意识到这个结果其实是提问者“逼问GPT”的结果,并非是它“意识到”这个问题后给出的输出结果。这是一个有趣的问答过程。GPT表现出“猜测”甚至“迎合”提问者真实趣味的情境,这是令人感慨的地方,不知如何置评。

  需要注意的是,GPT承认“语言模型并不具备对语法和句法规则进行明确的验证和确认的能力,因为它们没有事先定义的语法规则,而是通过大量数据的统计性学习得到的。”——这一结果,一方面令人感到GPT表现出来的“理解能力”事实上已经超越了单一问题讨论平面,进入和“第二、甚至第三层级知识”的讨论平面(知识层级是经济学家谢林和奥曼的观点);另一方面,又为它进一步做“政治正确”的回答做出铺垫,比如它进一步解释说,“因此,在使用这些模型生成文本时,仍然需要人工的语法和句法审查,以确保生成的文本符合语言学规范。”

  第三个问题:对齐问题

  “对齐问题”是语言模型的重要问题。大语言模型如GPT在生成文本时,虽然可以从大量的数据中学习到统计规律,包括语法和句法规律,但并不能确保生成的文本与人类语法规范、道德伦理、风俗习惯完全对齐。对此GPT的看法是:“在实际应用中,需要采取一些措施来确保生成文本的内容与人类的语法规范、道德伦理和风俗习惯相一致。生成语法如何切合人类语法规范、道德伦理、风俗习惯的对齐是一个较为复杂的问题,仅依据统计规律获得的语法模型可能无法完全确保生成文本的内容与这些方面完全一致。由于统计模型是从大量的文本数据中学习到的,它在生成文本时会根据训练数据中出现的频率和概率生成文本,但并不一定能够保证生成的文本符合人类的道德伦理、风俗习惯等方面的规范。”

  这是一个中规中矩的回答。也是GPT回应挑战的典型方式,一方面坦陈问题的存在,另一方面寻求解决之道。GPT对“确保生成文本符合人类语法规范、道德伦理、风俗习惯等要求”,提出以下几种方法:

  以下是一些可能的措施:

  1)合理的训练数据:选择合适的训练数据,包括符合人类语法规范、道德伦理和风俗习惯的文本数据,以提供给模型在训练过程中学习正确的语法和语言用法。

  2)合适的生成条件:设置合适的生成条件,如采样方法(sampling method),以控制生成文本的随机性和多样性,从而生成更加符合语法规范、道德伦理和风俗习惯的文本。

  3)数据过滤和预处理:在训练数据中,可以通过对文本数据进行筛选和预处理,排除或限制一些不符合语法规范、道德伦理、风俗习惯等要求的文本数据,从而在训练过程中减少对这些方面不符合要求的学习。

  4)先验知识引入:可以通过在训练过程中引入人类的先验知识,如语法规则、道德伦理、风俗习惯等,作为生成文本的约束条件,从而在生成过程中保持对这些规范的遵循。

  5)后处理和校验:在生成文本后,可以通过后处理和校验的方式对生成的文本进行检查,确保其符合人类语法规范、道德伦理、风俗习惯等要求。例如,可以使用语法检查工具、伦理伦理检查工具、社会文化约束等进行文本的审核和校对。

  6)人工审核:对生成文本进行人工审核,通过人工的方式对生成的文本进行检查,确保其符合语法规范、道德伦理和风俗习惯,并进行必要的修正和调整。需要注意的是,尽管这些措施可以提高生成文本的语法正确性和内容合理性,但GPT“理解”完全消除生成文本中的语法错误、不符合道德伦理和风俗习惯的内容是非常困难的。因此,它再次给出“稳妥”的应对之道是:“在使用大语言模型生成文本时,仍然需要谨慎对待生成文本的内容,并结合其他手段进行人工审核和编辑,确保生成文本符合实际的语言和社会规范。”

  在解决对齐问题的具体措施中,GPT介绍所谓“语义角色标注(Semantic Role Labeling,简称SRL)”的方法。SRL是一种自然语言处理技术,用于对句子中的词语进行语义角色的标注,以表示词语在句子中扮演的语义角色,如施事者、受事者、时间、地点、方式等。这种技术可以帮助理解句子中词语之间的关系,从而进一步理解句子的语义信息。它给出了具体的操作性描述,并给出了一个具体的例子:

  在GPT中,语义角色标注可以作为一种辅助信息,用于生成更加合理和符合语法语义的文本。具体操作方式可能如下:

  1)句法分析:首先对输入的句子进行句法分析,识别其中的词语和句法结构,如主谓宾关系、修饰关系等。

  2)语义角色标注:在句法分析的基础上,对句子中的词语进行语义角色的标注,例如识别出句子中的施事者、受事者、时间、地点等。

  3)文本生成:在生成文本时,可以根据语义角色标注的结果,对生成的词语和短语进行限制和约束,确保生成的文本在语法和语义上更加合理。

  例如,当生成一个关于'John ate an apple'(约翰吃了一个苹果)的句子时,语义角色标注可以标注'John'为施事者、'ate'为动作、'an apple'为受事者。在生成的过程中,可以根据这些语义角色的标注,生成类似'John enjoyed eating an apple'(约翰喜欢吃苹果)这样更加合理的句子。

  同样,GPT不忘记提醒这一方法的局限性:需要注意的是,语义角色标注在GPT中可能只是其中的一种辅助信息,具体的操作方式和在内容生成中的应用可能会因模型的具体设计和应用场景而有所不同。同时,语义角色标注本身也可能存在一定的误差和不确定性,因此在使用时需要谨慎考虑其可靠性和适用性。

  因为有大语言模型的大规模预训练和微调,GPT模型在处理对齐问题时,其实已经储备了大量的“标准答案”,这既是一个大模型能否投入实用的关键标准,也是“以不变应万变”的某种应对策略。GPT面对具有挑战性(有时候可能是尖锐的“挑衅性”问题)的时候,需要“考虑”种种问题空间可能性的组合,但这恰恰也是大语言模型的“软肋”。

  这个问题令人想起著名交互程序设计大师Alan Cooper在20多年前的一本书《软件创新之路》中提到的NSP(N0-Problem Syndrome):试图通过事先准备关键词列表,通过数据检索的办法,打造一个万能应答系统是不可能的。Cooper把这种工程师的“雄心”称作NSP。看来软件工程师很难避免这种雄心万丈的理想。海量数据和庞大算力加持之下,算法和模型的缔造者们很容易受到这种“机巧”的诱惑,也是难免其俗吧。我想说的是,“对齐问题”恰恰属于这一类的开放问题,“打固定靶”的思维是很难“对齐”的。这是LLM的又一个深度挑战。

  第四个问题:语义和理解问题

  语义和理解问题,可以说是GPT这一类大语言模型无法回避的核心问题。我的提问是:GPT虽然没有明显地依赖现有的语法规则,但依然需要遵从语法规则对合法语句的要求,那么GPT又是如何理解语法规则,并理解语义的呢?

  GPT的回答在这里可谓乏善可陈。我想问的是,既然你承认GPT并不依赖现有的语法规则,但又声称输出文本要遵从语法规则的要求,输出“合理的句子”(包括上述“对齐问题”),那么你总得“理解语义”才有可能啊?

  GPT的回答不出所料,依然是“自说自话”的模式,它回答说:“GPT在理解语法规则和语义时,主要依赖于其在大规模文本数据上进行预训练时学到的语法、语义和语境的知识。通过对大量文本数据进行预训练,GPT能够捕捉到不同语言中的语法规则、句法结构、词法关系、上下文信息等,并对其进行建模。”

  对此,GPT进一步解释说,“具体而言,GPT通过无监督的自监督学习方式,在大规模文本数据上预测下一个词或下一个片段的概率。这样的预训练过程使得GPT学习到了丰富的语法、语义和语境的知识,包括词汇的语法属性(如词性、词形变化等)、词汇之间的语法关系(如主谓关系、动宾关系等)、句子的语法结构(如句子成分的排列顺序、修饰关系等)以及上下文的语义信息(如指代关系、共指关系等)。”

  “在生成合法的语句时,GPT会根据其预训练的语法、语义和语境的知识,生成符合这些知识的文本。例如,当GPT生成一个词时,它会考虑该词的语法属性,例如该词是否是名词、动词、形容词等,从而确保生成的词在语法上是合法的。在生成一个句子时,GPT会根据之前生成的文本内容,考虑上下文信息,生成符合句法结构和语义逻辑的文本,从而确保生成的句子在语法和语义上是合理的。”

  这时候一股难以名状的情绪在提问者心头荡漾。GPT的回答中赫然使用名词动词、语法语义的概念,但让人觉得它的回答分明只是在做“词语配对(符号组合)”。想象一下:如果回答着是人的肉身,人们会进而追问下去,或者请回答者举例说明,或者双方辨析问答过程中展现的对过程、机理的深入理解。但是,对GPT的多轮追问现实,超过一定轮次之后,GPT基本进入“疲惫”状态,车轱辘话了。

  末了,它依然温馨提醒:“需要注意的是,尽管GPT能够生成符合语法规则的文本,但它并没有深刻理解语法规则的内部机制,而是通过大量的文本数据进行统计学建模来推断合法的文本。因此,在一些复杂的语法结构或语法规则变化较多的情况下,GPT可能会出现错误或不符合人类语法规范的生成结果。在应用中,对于生成结果的语法和语义的合理性需要进行人工审核和修正。”

  这个问题的多次对话,有两点启发:一是基本可以断定,GPT的强大能力只在于概率计算,而不是理解。换句话说,即便GPT能生成很多合法的语句,但它并不能理解这些语句的含义。另一点是,GPT可以“装”出理解的样子,并且看上去很靠谱。虽然它不是“胡说八道”,但“一本正经”是有过之而无不及。

  看看 GPT“自豪地”这样说道:“GPT的强大能力主要来自于其对大量文本数据的统计学建模能力,通过预测下一个词或下一个片段的概率来生成文本。尽管GPT能够生成合法的语句,但它并没有深刻的理解这些语句的含义,也不能进行深入的推理、逻辑推断或语义理解。”

  “GPT的预训练模型是基于大规模无监督的自监督学习方式进行的,其主要目标是预测下一个词或下一个片段的概率,而不是深入理解文本的含义或推断其逻辑关系。因此,尽管GPT生成的文本在语法上合法,但它并不能理解这些文本的语义含义,而只是基于概率模型生成类似的文本。”

  “这也是为什么在实际应用中,尽管GPT在生成文本方面表现出强大的能力,但其生成结果可能需要人工审核和修正,以确保生成的文本在语法和语义上是合理的、符合预期的。此外,在应用中还需要注意对生成文本的合法性、道德伦理、风俗习惯等进行人工干预和控制,以确保生成结果的质量和安全性。”——看到这样“贴心”的忠告,人类是应该满意呢,还是满意呢?

  第五个问题:可解释问题

  可解释问题是AI领域的硬核问题,可以说跟“理解问题”互为表里。我的问题是“如果GPT并不理解它所接触、处理、输入输出的各种语料信息的话,那么它如何关照人的内心需求,因为人对理解是十分关心的,一切语言交互的目的都在于理解。对GPT来说,没有理解能力的句子生成,是否隐含严重的不可解释性,从而影响人们对GPT的信任呢?”

  GPT对此的回答非常直率:“由于GPT并不真正理解语料信息,其生成的文本可能缺乏深刻的语义理解,这可能对人们对GPT的信任和可解释性产生影响。”

  GPT非常坦率地将缺乏可解释性的问题,归结为“计算”问题,它回答说:“在目前的自然语言处理技术中,尽管GPT在生成文本方面表现出强大的能力,但其生成结果的解释性和理解能力相对较弱。由于GPT的生成过程主要基于统计模型和概率计算,而不是深刻的语义理解,因此生成的文本可能难以解释其生成的具体原因、逻辑或推理过程。”

  “这种不可解释性可能对于某些应用场景或用户需求造成一定的限制。在一些对于文本生成结果需要高度可解释性和理解性的场景中,例如医疗、法律、金融等领域,GPT生成的文本可能无法满足对解释性和理解性的要求。”

  “因此,对于使用GPT或类似技术的应用,需要在使用过程中充分考虑生成文本的可解释性和理解性,并采取相应的方法和技术来解决这一问题,例如通过将生成的文本与现有语法规则、语义知识进行对比、验证和解释,或者结合其他的自然语言处理技术,如语义角色标注、实体识别、语义理解等,来提高生成文本的解释性和理解性。此外,用户对于生成文本的合理期望和使用场景的明确规定,也可以帮助降低不可解释性对用户信任的影响。”

  将可解释问题归结为“计算”的局限性所致,这是正解。但GPT并未提出切实可行的“可解释”问题的应对之策,只是将其又切换回“理解”问题。或许在GPT看来,它的大模型已经在“语义理解方面能力具足”,以至于可以“足够胜任”可解释问题,这个回答与上面问题的回答互悖。

  简略说,机理模型与计算模型一直以来是工程学科仰仗的两条技术路线。顶级的机理模型基于严格的数学理论,如麦克斯韦方程组;计算模型则属于经验理论、归纳理论,有一定的实用性和有效性,但局限性也很明显,属于“知其然不知其所以然”。钱学森曾根据中国哲学提出“唯象理论”的理论类型,这一类型又可以称之为“知其所以然不知其然”。AI的可解释问题,不仅仅是“可解释”的要求这么简单,更重要的是这种解释需要奠基于更加坚实的数理基础之上,这个硬骨头自然不能仅靠AI扛得下来。其实公正地说,AI以及大模型,应该可以为“可解释性”问题的深化、理解和解决之道的寻求,提供重要的启示。这是一个人机相互驯化的过程,用北京邮电大学刘伟老师的话说,这个是“计算和算计”的融合。

  第六个问题:非英语语系问题

  据公开披露的资料显示,GPT的大模型是建立在大量英文文本的基础上的,英文占比92.7%,中文只有0.1%。虽然GPT接受中文问答,但大家知道这中间只是增加了一个翻译转换的过程。作为汉语环境的使用者,自然关心这个问题。我对GPT提出的观点是:“GPT是根据大量的英语语料进行训练的,这就决定了GPT所掌握的语言学知识,是对英语为主的曲折语系(meandering language family)的语法模式。对于非曲折语系,比如孤立语系(isolated language family)、黏着语系(cohesive language family),GPT可能难以适应。”

  在我看来,GPT对此的回答平淡无奇。上个月的时候我曾经就语言学符号学与GPT反复讨论过多轮,回答的内容基本类似。当然,GPT的坦诚依然是印象深刻的。

  它说,“GPT的训练数据主要来自英语语料,因此它在掌握语法模式和语言学知识时会偏向英语的曲折语系。对于其他类型的语言,如孤立语系和黏着语系,GPT可能会面临适应性的挑战。”

  “曲折语系(如英语)与孤立语系、黏着语系等不同类型的语言族群之间,确实存在语法模式和结构上的差异。GPT作为基于大量英语语料训练的语言模型,在处理非曲折语系的语法模式时可能会遇到一些挑战。”

  “曲折语系(如英语,也称为屈折语系)是一种语法上比较复杂的语言类型,其中词汇和语法的关系较为复杂,通常需要通过词尾的屈折和变化来表示不同的语法功能。英语是一种曲折语系,因此GPT在处理英语的语法和语法规则时可能表现较为自然和准确。其中词汇的屈折和语法的变化在单词内部和单词之间都比较明显。”

  “孤立语系和黏着语系则是另外两类语言族群。孤立语系中,词汇和语法的关系较为简单,通常通过词的位置和语序来表示语法关系,而不使用屈折和变化。黏着语系中,词汇和语法的关系较为复杂,通常通过词尾的黏附和拼接来表示语法功能。例如,黏着语系中词汇通常通过附加词缀来表示不同的语法功能,而不像曲折语系中的屈折变化。这些语言类型的语法模式和语法规则与英语等曲折语系有很大的不同,因此GPT在处理这些语言时可能会面临一定的适应性挑战。”

  “因此,对于GPT这种基于大量英语语料训练的语言模型来说,处理非曲折语系的语法模式可能会面临一定的挑战,因为其训练数据主要集中在曲折语系中,对于非曲折语系的语法模式和结构可能掌握较少的信息。这可能导致GPT在生成非曲折语系的文本时,语法上可能不够准确或不符合该语言族群的习惯。”

  GPT除了坦率承认不足之外,应该说对黏着语系、孤立语系的特征描述较为一般化和表面化。虽然语系划分的复杂度大大超过200年前德国洪堡给出的这种三分法,且语系、语支之间错综复杂的关系也很难简单这样分类,但GPT的回答对这三个语系的解释失之简单。这个可以参考社科院沈家煊教授的《超越主谓结构》《动词与名词》等著作。

  GPT给出的解决之道停留在一般化水平上,也就不奇怪了。它说:“如果需要在非曲折语系的语言环境下使用GPT或类似的语言模型,可能需要考虑增加该语言族群的训练数据,以提高模型对于该语言族群的理解能力,并可能需要对模型进行适应性训练或微调,以便更好地适应目标语言的语法和语言学知识。若需要在非曲折语系的语言中应用,这可以包括使用目标语言的语料进行训练,或者通过在生成过程中引入语法规则和语言学知识的先验信息来引导生成结果。同时,对于使用这类模型的应用,用户需要在使用过程中充分考虑目标语言的语法特点,并验证生成文本的准确性和自然性。此外,也可以考虑结合其他的自然语言处理技术,如语法规则、语义知识、特定语言族群的语料数据等,来提高生成文本的准确性和合理性。针对特定语言族群的应用,需要根据实际情况进行定制化的模型训练和调优,以确保生成的文本符合该语言族群的语法规范和习惯。”

  汉语言大模型应该如何建?我的粗浅认识是,除了向GPT学习借鉴之外,需要潜心研究汉藏语系本身的语言特点,特别是音形义用合一、传情达意合一的特点。顺便说,目前只是就GPT的文本问答进行考察,其实符号文本只是语言的一种形态,语言的丰富性需要关注到语音问题。

  第七个问题:黑箱模型问题

  早先我关注GPT内在机理问题,主要是三个问题:蛮力计算、黑箱模型和可解释问题。这三个问题除了第一个外,GPT都是“欣然”承认的。我的问题是:“请问GPT算法是否可以理解为典型的黑箱模型?”

  GPT的回答很是痛快:“是的,GPT 算法可以理解为典型的黑箱模型。”

  它进一步解释了什么是“黑箱模型”,并再次确认这一点:“在机器学习和深度学习中,黑箱模型通常是指输入和输出之间存在复杂映射关系的模型。这些模型通常可以通过大量的训练数据来学习这种映射关系,但是很难对模型的内部结构和工作原理进行解释和理解。这是因为黑箱模型通常由大量的神经元和层组成,而这些神经元和层的作用和贡献是很难解释的。”

  “GPT 算法就是一种典型的黑箱模型。它采用了深度神经网络来学习自然语言 的规律和语义,但是很难解释这些规律和语义是如何被学习到的。GPT 算法的输出结果通常也很难被解释和理解,因为它是由大量的神经元和层组成的复杂结构计算出来的。因此,GPT算法可以被视为典型的黑箱模型。”

  这个问题可能会有朋友感到不够“中性”。事实上换一个问法结果也是一样的。之所以提问“黑箱模型”,是想从另一个角度印证GPT在蛮力计算、语义理解问题、可解释问题等这些问题上的“一致性”。GPT依赖概率计算和黑箱模型的工作机制,使得GPT虽然表现优异,但缺乏十足的“底气”让人“信服”。这好比智能手机流行开来的时候,各种美颜、拼贴泛滥于世,强悍工具在带给人炫酷感的同时,也在“刺耳地消磨”人的味道。

  黑箱模型的思维方式由来已久。100年前行为主义心理学家斯金纳创建的“斯金纳箱子”就是典型的一例。工程实践中大量的模型拟合,也都是将复杂的过程对象视作黑箱,只是从输入输出信号的采集分析拟合中,建构所谓的数学模型,然后用优化算法和目标函数的表现来评估这个黑箱到底是不是符合要求的黑箱。

  黑箱模型是典型的实用主义哲学,只要效果不问因由,只要效果好,一俊遮百丑。虽然20世纪后半叶的新实用主义哲学思潮,批判了分析哲学的“镜像式世界”的观念(见罗蒂《哲学和自然之镜》),用范传统、反逻辑、反理论、反本质主义的立场,清除了“理性与欲望”、“理性与欲求”、“理性与意志”之间的藩篱,但今天的秉持计算主义信仰的算法工程师们,依然沉醉于算力加持、数据贪婪之下的“黑箱模型”,不能不说是计算哲学的一大悲哀。这里暂不做深入的分析,留作后论。

  第八个问题:能耗与文化冲击问题

  关注GPT带来的能耗问题,是一个很自然的问题。此前OpenAI曾在其分析报告(AI and Compute)中指出,过去10年里,AI训练所耗费的电力每3-4个月翻一番。斯坦福大学人工智能研究所《2023年AI指数报告》中指出,训练像GPT3这样的大模型所耗费的电力,足够一个美国家庭使用数百年。

  为何这里要将耗电问题于文化冲击联系在一起?我的想法是,如此惊人的耗电量(LLM被称作新的“电老虎”),目的到底是什么?

  这么问有两层意思:能源问题是全球性的核心问题之一。全球能源分布结构和使用结构,与全球事务紧密相关。将大量能源用于训练如此规模浩大的大模型,是否确属必要,以及经济上是否合理?对这个问题的回答固然见仁见智,但不可否认的是,今天看到表现靓眼的GPT,实际上依然运行在“已有知识”“存量知识”的层面,宣传口径中表述的“知识创新”有很强的噱头成分。

  另一个问题是,大模型能源消耗带来的能耗结构的变化,将势必“挤压”异域文化的表现空间和存量空间,形成巨大的文化冲击。

  对此,我向GPT输入这样的观点与之探讨:“GPT基于统计语言学,建立在海量大语言模型处理的基础上,并且算力消耗巨大,GPT所形成的生成内容,与GPT所采用的训练-生成方法,如果大范围流行,很大程度上会冲击不同学科领域的知识生产。由于GPT采用黑箱模型、蛮力计算,且本质上不具备可解释性,最终将会对整个人类的世界观塑造,产生不可预见的影响,并且隐藏着难以识别的认知风险。”

  针对这个问题,GPT给出的回应是:“GPT作为一种基于统计语言学的大语言模型,使用了海量的文本数据进行训练,但其生成内容和生成方法确实是黑箱模型,难以解释和理解其内部的生成机制。这可能会对知识生产和学科领域产生影响,尤其在需要高度可解释性和透明性的领域。作为基于统计语言学和概率计算的模型,GPT在生成内容时确实是基于大量的文本数据进行统计和概率计算的,并且其生成结果可能受到训练数据和生成方法的限制。这可能导致生成的内容在某些情况下可能不符合特定学科领域的知识生产标准。”

  不得不说,GPT“直面问题”的能力“勇气可嘉”,它进一步解释道:

  “一方面,GPT生成的内容可能会对信息传播和知识产生影响。由于其生成的文本可能在语法和语义上是合理的,但缺乏真实理解和认知能力,这可能导致误导、不准确或不完整的信息传播。在一些需要高度准确性和可靠性的领域,如科学、医学、法律等,依赖GPT等黑箱模型生成的内容可能会引发误解或错误理解,从而对知识生产和传播产生负面影响。”

  “另一方面,GPT的黑箱模型和蛮力计算方法也使得其生成结果难以解释和理解。这对于一些需要可解释性和透明性的应用场景,如法律、金融、医疗等,可能会带来困扰。决策的可解释性和可验证性对于确保公平、公正和可靠性至关重要,而GPT等黑箱模型的缺乏可解释性可能导致其生成结果难以被解释、验证和审查,从而对决策过程和结果产生潜在影响。”

  “因此,确保人工智能模型的可解释性和透明性对于应对潜在的认知风险和确保知识生产的质量和可靠性非常重要。这可以包括在模型设计和应用中引入可解释性技术和方法,开发透明度工具和接口,以便用户能够理解和验证模型的生成结果。同时,对于使用GPT等黑箱模型的应用,用户需要在使用过程中充分考虑其潜在的认知风险,并审慎评估其生成结果的可靠性和适用性。”

  看到这样的分析言论,令人忽然产生这样一种感受:GPT对问题的“领悟里”和“应变力”值得称赞,但隐约会感到深深的不安:GPT对此类问题的严重性和由此产生的后果,并没有“焦虑感”。

  此外,GPT被认为是一种黑箱模型,其生成过程对用户来说是不可解释的。这可能导致生成的内容缺乏可解释性,难以理解其生成逻辑和推理过程。这种缺乏可解释性可能对用户在使用GPT生成的内容时产生一定的认知风险,尤其是在需要对生成内容进行严谨验证和判断的场景中。“

  “同时,GPT的广泛应用和流行可能会对人类的世界观产生影响。生成的大量内容可能被广泛传播和应用,从而塑造人们的观念、信仰和认知。然而,由于GPT生成内容的随机性和缺乏可解释性,这种影响可能是难以预测和难以控制的,可能对社会和文化产生不可预见的影响。”

  “因此,在使用GPT或类似模型时,确实需要认识到其潜在的认知风险和对知识生产的影响。同时,需要谨慎使用生成的内容,并在需要时进行严谨的验证和审查,以确保生成的内容符合学科领域的标准,并对可能的偏差和错误保持警觉。此外,继续推动对AI模型的解释性和可解释性研究,以提高模型的透明度和可解释性,有助于更好地理解和管理生成内容的潜在风险。”

  怎么样?是不是看上去像一篇四平八稳的“讲话稿”或者漂亮的“外交辞令”?

  第九个问题:认知风险

  GPT带来的文化冲突,进而会影响人们的世界观,影响人们的认知结构。对这一点GPT的回答异常坦率——这是它“一贯的风格”,似乎也正是这一点,在用户体验中“特别讨喜”。

  如果让GPT分学科领域阐释一下,对人类认知所带来的风险和挑战是什么,会怎么样》这个问题是这样的:“GPT对语言学、符号学、人类学、哲学、心理学等的研究产生了巨大影响。请分析GPT的影响具体表现在哪些方面?以及对这些学科思想,将会产生何种冲击?”

  GPT的回答是:GPT作为一种基于大规模文本数据的生成模型,对语言学、符号学、人类学、哲学、心理学等学科的研究产生了一系列影响,包括但不限于以下几个方面:

  1)语言学:GPT通过对大量文本数据的学习,从统计和概率的角度对语言结构和语法规则进行建模,使得其生成的语言内容能够反映出自然语言的一些语法、语义和语用规律。这对语言学研究提供了新的数据和观察角度,有助于深入理解语言的结构和演化规律。它可以生成大量合法的语句,从而对语言学领域的语法理论和语言结构进行验证和探索。同时,GPT还可以通过生成不同风格、领域、时代的语言内容,帮助语言学家研究语言变迁、语言演化等现象。此外,GPT生成的内容也可能对语言学中的一些争议和理论提供新的视角和观点,从而对语言学领域的研究产生一定的冲击。

  2)符号学:GPT生成的文本内容可能包含丰富的符号和符号系统,涉及到符号学中的符号、符号规则、符号语义等概念。这对符号学研究提供了新的实证材料和探讨对象,有助于拓展符号学的研究领域和深化对符号系统的理解。符号学家可以从GPT生成的内容中探索符号的形成、演化和语义解释等问题,深入研究符号的作用和影响。

  3)人类学:GPT生成的内容可以包含关于不同文化、社会和人类行为的描述和观点,对人类学研究提供了丰富的数据和语料。GPT生成的文本内容可能涉及到不同文化、社会和民族的语言和语境,从而对人类学研究提供了丰富的跨文化数据和语言现象的观察对象。人类学家可以通过研究GPT生成的内容了解不同文化之间的语言和符号差异,深入研究不同文化对语言和符号的理解和应用。这可能对人类学研究中的语言、文化、社会交往等方面产生影响,推动人类学从不同角度深入研究人类社会和文化的多样性。

  4)哲学:GPT生成的内容可能涉及哲学问题,例如道德、伦理、认知、GPT生成的内容涉及到思维、语言、知识等哲学关注的领域,从而对哲学研究提供了新的思考对象和观察角度。例如,GPT生成的文本可能引发对语言的真实性、意义的构建、知识的生成和传递等哲学问题的深入探讨,从而对哲学领域的研究产生影响。

  5)心理学研究:GPT的生成内容可能对心理学中的语言理解、人类思维和情绪产生影响。例如,GPT生成的内容可能对情感、情绪、言语行为等心理现象进行观察和研究,从而对心理学领域的研究提供了新的数据和观察方法。

  虽然GPT对以上五个学科领域带来的认知风险进行了阐释,但不难看出,它的阐释基本是“坏事正说”的技巧。一方面承认冲击、承认风险,但话锋一转,认为这种冲击可以提供“新的视角和观点”,让这些学科从不同的角度“深化研究”。这一招是在是高啊。

  其实GPT带来的认知风险并不是供给侧的问题,而是需求侧的“满足问题”。假以时日,大模型成为学习、工作、生活、研究的寻常装备的时候,GPT或将扮演“哆啦A梦”的角色,成为一切难题的“百事通”。这种思想和价值观的“无痛植入”,或许是人们对GPT这样的大模型所谓“碾压式知识生产”的深深疑虑吧!

  第十个问题:知识库更新和退化问题

  在与GPT对话的过程中发现,经过人类提示的错误信息,GPT并不能完全更新并充实所训练的知识库,如何确保更新知识库,GPT是否有内在的学习机制,保证不犯同样的错误,这也是一个众所关心的问题。由于尚未在GPT4中做相关对话,GPT4是否具备这个能力尚未可知。

  比如我曾提过一个简单的数学问题,问“典型的超越数有哪些?”GPT给出了若干正确回答(比如π、e、欧拉常数、卡塔兰( Catalan)常数、刘维尔数、蔡廷(Chaitin)常数、希尔伯特常数等)之外,竟然给出了√2。在纠正过一次之后,过一段时间再问,依然有√2。

  当询问GPT这是怎么回事的时候,GPT坦陈“并没有内在的学习机制来更新知识库”。它不能根据错误信息自动更新知识库或改进它的回答。GPT只是根据它在训练时学到的模式和知识来生成回答,而不会在实时交互中学习新的信息或修正错误。

  “当用户提供错误或不准确的信息时,GPT会尽量根据我训练时的知识和模型对其进行处理,但并不能保证100%的准确性和完整性。如果用户发现我回答中的错误或有疑问的地方,最好在专业领域的专家指导下进行验证和确认。我鼓励用户在使用我的回答时保持批判性思维,并结合其他可靠来源的信息进行综合判断。”

  也就是说,每次问答,GPT并不是在最大的语料库空间里,重新计算一遍,而是在一个小样本数据模型上计算。GPT确认了这个判断:作为基于预训练模型的语言模型,GPT在预训练时使用了大规模的文本数据进行训练,但在实际的问答过程中,并不会在最大的语料库空间里重新计算。GPT是在基于已经训练好的模型的基础上,通过对用户输入的问题进行编码、解码和生成,生成相应的回答。GPT的回答是基于它在预训练阶段学到的语言模式和知识,而不是在实时计算中重新训练或更新。因此,它的回答受限于预训练阶段的数据和模型,并不能实时地在最大的语料库空间里重新计算。这也就解释了为何不同的GPT版本内容资料并不是最新的原因。

  当然,每次问答,GPT基本是在已经训练好的数据库中,检索和生成最有可能性的回答。这可以理解为,在问答过程中,GPT会根据输入的问题在已训练好的模型中进行编码和解码,生成回答的过程是基于对语言模型学到的语言模式和知识进行概率计算,选取最可能的回答作为输出。这种方式是基于预训练模型的静态特性,不会实时地重新计算或更新模型。

  这样就带来另一个问题,随着时间的推移,GPT训练完成的语料库就会退化、陈旧,如何保证语料库里的数据是最新的?

  最新的报道称,OpenAI的CEO奥特曼否认有所谓GPT5训练计划,并认为语言模型并非越大越好,这被解读为GPT大模型已经抵达了某种“边际效用递减”的边缘,也有另一种解释是OpenAI或许还隐藏某些不为人知的策略。无论如何,GPT面临的知识库退化问题,是一个严重的挑战。

  在对话中,GPT承认,“作为一个基于预训练模型的语言模型,我的语料库在训练时是固定的,不会随着时间的推移自动更新。因此,随着时间的推移,我的语料库中的数据可能会变得陈旧,无法保证始终是最新的。”

  “为了保持模型的知识更新,需要定期进行模型的重新训练。这通常需要大量的计算资源和时间,包括重新收集和处理最新的语料库数据,重新训练模型并进行评估。这样可以使模型能够在新的语境下生成更准确、更有用的回答。”

  “然而,实时更新语料库并不是简单的任务,因为语料库的收集、处理和训练需要耗费大量的时间和资源。在实际应用中,需要仔细权衡资源和成本,以及数据的时效性和准确性,来确定何时以及如何更新语料库。此外,还需要考虑到数据的合法性、可靠性和隐私等因素,以确保语料库的数据质量和合规性。”

  其实,GPT的语料库退化、陈旧的问题,指向另一个更加严重的问题,就是大模型的“军备竞赛”如火如荼,诸多大模型不但采取闭源策略,而且回避对内在机理的详细刻画。虽然从商业上是可以理解的,但GPT所面对的并非是一块诱人的“商业蛋糕”,GPT这样的大模型面对的是整个世界,整个未来。从这个角度说,对大模型的内在机理的探究,学理基础和思想基础的探究,不但必要而且紧迫。

  修订稿已经接近2万字了。不能再长了。原本打算写一写总体评述,看来还是省了吧,请各位高人批评指正!

  【修订后记】与GPT对话是一个令人百感交集的过程。GPT的知识储量、“理解”能力、响应的准确度和效率,甚至“悟性”,都给人留下深刻的印象。当然,最值得称道的是GPT直率、坦诚回应问题的能力。不过,当你意识到你所面对的依然是一架能耗惊人、遍览群书、不知疲倦、“善解人意”的冷冰冰的机器的时候,那种焕发出你内心由衷赞叹和钦佩之余,依然会五味杂陈。无论如何,通过问答所梳理的GPT的十大问题,还是发人深思的。谢谢GPT!

  这10轮问答,基本保持问答顺序的原貌。如果按重要性程度排列,我个人倾向于按如下重要程度降序排列:

  1.第四个问题:语义和理解问题、2.第五个问题:可解释问题3.第二个问题:生成语法规则的有效性4.第三个问题:对齐问题5.第六个问题:非英语语系问题6.第七个问题:黑箱模型问题7.第一个问题:蛮力计算8.第八个问题:能耗与文化冲击问题9.第九个问题:认知风险10.第十个问题:知识库更新和退化问题

  注释:

  [1] J. Katz and J. Fodor. The structure of a semantic theory. Language, 39(2):170–210, 1963.

  [2] n-gram 模型是一种基于统计的语言模型,用于估计在一个文本中连续n个词出现的概率。GPT-3.5可能在其训练过程中使用了n-gram 模型的思想,例如用于计算词的出现概率或生成文本时的条件概率。参考:Jelinek, F. (1998). Statistical language modeling. MIT Press. 。马尔科夫链是一种随机过程,其中当前状态只依赖于前一个状态。GPT-3.5可能使用了马尔科夫链的思想,例如在生成文本时,当前生成的词可能只依赖于前一个生成的词,从而保持文本的连贯性。参考:Norris, J. R. (1997). Markov chains. Cambridge University Press.

  [3] A Neural Probabilistic Language Model' (Bengio et al., 2003)

  [4] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. arXiv preprint arXiv:1910.09700.

  [5] Attention is All You Need' (Vaswani et al., 2017)

  [6] Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition' (Jurafsky et al., 2020)

  [7] Improving Language Understanding by Generative Pre-training' (Radford et al., 2018)

  [8] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding' (Devlin et al., 2018)

  [9] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.