大模型微调样本构造trick

时间：2023-07-16

　　盘古一系列大模型（alpha，gamma，code）主要是炫训练硬件，此次又要上新什么优化技术

　　开工第一天给大家来点干货，公共号【EDA学习】枫哥带大家了解HBM技术：

　　WHAT? 什么是HBM？WHERE? HBM技术特色WHY? 为什么需要HBM？HOW? HBM推动AI成功1：什么是HBM：

　　HBM==High Bandwidth Memory 是一款新型的CPU/GPU 内存芯片（即 “RAM”），其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起，实现大容量，高位宽的DDR组合阵列。先看个平面图：

　　中间的die是GPU/CPU，左右2边4个小die就是DDR颗粒的堆叠。在堆叠上，现在一般只有2/4/8三种数量的堆叠，立体上最多堆叠4层.

　　再看一个HBM DRAM 3D图形：DRAM通过堆叠的方式，叠在一起，Die之间用TVS方式连接DRAM下面是DRAM逻辑控制单元, 对DRAM进行控制GPU和DRAM通过uBump和Interposer（起互联功能的硅片）连通Interposer再通过Bump和 Substrate(封装基板）连通到BALL最后BGA BALL 连接到PCB上。2：HBM技术特色：到现在为止生产的只有1-2代，第3代的SPEC刚刚被定义。

　　老铁们，1024位宽， 256Gbps带宽，靠！有没有搞错，没有，这个真没有。

　　另据悉，AMD及NVIDIA下代显卡都会搭配4组HBM显存，等效位宽4096bit，总带宽可达1024GB/s，也就是NVIDIA之前宣传的TB/s级别带宽。

　　这是要逆天呀！

　　3:为什么要HBM:

　　更高速，更高带宽HBM 堆栈没有以物理方式与 CPU 或 GPU 集成，而是通过中介层紧凑而快速地连接，HBM 具备的特性几乎和芯片集成的 RAM一样。

　　更高位宽 HBM 堆栈方式可以实现更多的IO数量，1024位。

　　更低功耗随着显卡芯片的快速发展，人们对快速传输信息（“带宽”）的要求也在不断提高。GDDR5 已经渐渐不能满足人们对带宽的需要，技术发展也已进入了瓶颈期。每秒增加 1 GB 的带宽将会带来更多的功耗，这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此，GDDR5 将会渐渐阻碍显卡芯片性能的持续增长。HBM 重新调整了内存的功耗效率，使每瓦带宽比 GDDR5 高出 3 倍还多。也即是功耗降低3倍多！

　　更小外形除了性能和功耗外，HBM 在节省产品空间方面也独具匠心。随着游戏玩家对更轻便高效的电脑追求，HBM 应运而生，它小巧的外形令人惊叹，使游戏玩家可以摆脱笨重的 GDDR5 芯片，尽享高效。此外，HBM 比 GDDR5 节省了 94% 的表面积！

　　如上图所示，将原本在PCB上的GDDR5颗粒，全部集成到封装里和GPU一起。老铁们说来个实际的尺寸图看看：好的，如下图：

　　那GPU+HBM的整个芯片到底有多大尺寸呢？如下：和掌心类似。

　　那用手上的HBM，做成一个显卡需要多大的PCB呢？接着上图

　　4：HOW? HBM推动AI成功

　　人工智能，云计算，深度学习出现3个算力阶段

　　第一，早期，AI处理器架构的探讨源于学术界的半导体和体系架构领域，此时模型层数较少，计算规模较小，算力较低。

　　第二，模型逐渐加深，对算力需求相应增加，导致了带宽瓶颈，即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决

　　第三，云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重，要解决需要付出较高代价（如增加DDR接口通道数量、片内缓存容量、多芯片互联）

　　此时,片上HBM（High Bandwidth Memory，高带宽存储器）的出现使AI/深度学习完全放到片上成为可能，集成度提升的同时，使带宽不再受制于芯片引脚的互联数量，从而在一定程度上解决了IO瓶颈。

　　上图为寒武纪公司的DiaoNao AI ASIC设计，缓存占面积的66.7%（NBin+NBout+SB）

　　尽管片上分布的大量缓存能提供足够的计算带宽，但由于存储结构和工艺制约，片上缓存占用了大部分的芯片面积（通常为1/3至2/3），限制了算力提升。

　　而以HBM为代表的存储器堆叠技术，将原本一维的存储器布局扩展到三维，大幅度提高了片上存储器的密度，使AI进入新的发展阶段，

　　HBM需要克服的2大主要问题：

　　1：HBM需要较高的工艺而大幅度提升了成本。

　　2：大量DRAM堆叠，和GPU封装在一起，产生大量的热，如何散热是极大的挑战。

　　总结一句话：HBM就是将很多DRAM通过3D技术集成在一个封装内，满足各种计算对高带宽的需求。

　　最后，如果大家想了解HBM技术细节，关注【EDA学习】后，回复 HBM 给你HBM标准和其他相关文章。

　　2018年之往期精彩：

　　http://weixin.qq.com/r/UCjP1wXEwVi_rUG0931C (二维码自动识别)

　　随着深度学习模型越来越大，单卡训练逐渐成为过去式（或者仅用于调试），越来越多的训练代码需要多卡分布式训练乃至于多机多卡分布式训练。各种分布式方案中，PyTorch自带的DistributedDataParallel（简称DDP）开箱即用，是主流方案之一。

　　本文记录关于PyTorch分布式训练DDP中的find_unused_parameters参数含义，留下记录方便日后翻看。如果能帮助到有同样困惑的人，那自然更好。

　　本文主要的参考资料为pytorch分布式训练论文《PyTorch distributed: experiences on accelerating data parallel training》(VLDB 2020)和pytorch关于分布式训练的一系列官方文档。

　　PyTorch的分布式训练方案的核心是对各个显卡之中的模型的梯度求平均，因此我们首先构造一个可以方便地控制梯度的模型。

　　这个模型的梯度就是它的batch size，改变BS参数多运行几次就能看出来了。

　　这样，我们就可以控制在哪个参数上有梯度、梯度是多少了。

　　接下来我们写一份分布式训练的代码，它会根据该节点的rank（序号）调用第一层或者第二层的参数。

　　代码保存为a.py，执行命令 torchrun --standalone --nnodes=1 --nproc_per_node=4 a.py ，得到的输出结果表明反向传播之后的梯度情况为：

　　图1：find_unused_parameters=False的结果这说明结果是不对的，代码里存在bug。根据DistributedDataParallel的要求，反向传播之后每个模型的参数的梯度应该是一样的。

　　将代码中的find_unused_parameters参数改为True，再执行一次，可以看到结果为：

　　图2：find_unused_parameters=True的结果这次结果就对了，每个节点的梯度都一样了，可以进行optimizer.step操作。

　　大体上来说，当4个结点共同进行分布式训练时，只有当4个结点都计算得到了参数梯度之后，DistributedDataParallel才会对梯度进行平均。所以，当find_unused_parameters=False时，每一层的参数只得到了两份梯度，并不会触发梯度平均，所以我们看到的是图1的样子。

　　当设置find_unused_parameters=True时，DistributedDataParallel会跟踪每个节点的计算图，标记那些没用梯度的参数，并将其梯度视为0，然后再进行梯度平均，就得到了图2的结果。

　　一张图概括，当find_unused_parameters=False时，如果某个参数的梯度没有n份（n为分布式训练的节点总数），这个参数的梯度将不会被平均（每个节点的梯度都不一样，将导致各个节点的参数发散）；当find_unused_parameters=True时，会执行下图的流程。

　　图3：find_unused_parameters=True的执行流程这样一来，或许就能够明白find_unused_parameters参数的含义了，就是：寻找没用到的参数。很简单直白的翻译。

　　pytorch的DistributedDataParallel训练模式的隐藏要求是每个节点的梯度必须相同，这样才能保证每个节点的模型参数相同。如果模型中存在部分模块在特定数据中不会被启用的情况，并且是默认的find_unused_parameters=False的设置，将导致训练过程无意义，各个节点的模型不一致。

　　find_unused_parameters=True的设置会带来额外的运行时开销（而且还不小）。

　　一种更好的办法是构建一个相同的计算图，用0和1这些选择变量来执行选择操作，这样就不用设置find_unused_parameters参数了。例如：

　　得到的结果与find_unused_parameters=True是一样的。

　　熟悉timm的朋友都知道，timm里面有个DropPath层，对应一个drop_path函数。里面用的也是类似的技巧，用乘以0或者1来表示选择，而不能直接用Python的if-else来选择是否调用某个模块。

　　分布式训练的本质是多个节点协同训练，为了实现这种协同，多个节点的计算结构必须得是一致的。只要稍有差别，就很难处理，而且会带来很大的运行时开销。

　　为了自己的头发，也为了框架开发人员的头发，请用乘以0或者乘以1表示条件选择。

　　文本摘要（text summarization）要求将长文本中的重要信息用若干句话进行概括。因为其下游应用广泛，文本摘要一直是非常经典且重要的NLP任务。一般来说，文本摘要可以分成抽取式（extractive）和生成式（abstractive）两种范式，前者从输入文本中选取句子或者短语，而后者旨在直接生成摘要文本。

　　随着算力和数据量的提高，设计各种方法对预训练的语言模型（BART，T5，GPT等）进行微调已经成为了文本摘要的主流。而当这些方法的性能逐渐提高，人们开始意识到仅仅对照一个测试集中人写的参考摘要计算文本重叠或者语义重叠（如Rouge或者BERTScore）已经很难区分哪个模型表现更好，随之而来的就是一系列和细粒度评价指标相关的后续工作。这些工作可以粗略分为四个思路：

　　细化评价维度：人在评估一个文本摘要模型时，会从不同维度上进行判断。如果能设计出更加细化的评价维度，就能够更具体地说明某个模型在哪个方面会比其他模型更强。比如，[1]定义了如下四个重要评估维度。相关性（relevance）：摘要包含的信息是否为文中重要信息。一致性（consistency）：摘要是否有事实性错误。本文关注的忠实度（faithfulness）也和一致性较为相关。流畅性（fluency）：摘要中的单个句子是否通顺。连贯性（coherence）：摘要整体是否行文流畅连贯。评估评价指标：早期工作提出了很多摘要的评价指标，这些指标是否和人的评估吻合？在哪个维度上更加吻合？这方面的工作可以被称为元评估（meta-evaluation），即通过计算评价指标和人对同一个摘要模型输出评分的相关系数来评估该指标的好坏。较早的工作如[2]收集了人在上述四个维度上对很多摘要模型的打分来和自动指标比较，而最新的工作如[3]提出现有的指标在评估GPT-3生成的摘要时和人的吻合度极低，对评估评价指标提出了新的挑战。提升打分性能：根据收集到的人在若干维度上的打分，设计一些新的评价指标来提升自动指标和人的打分吻合度。提升模型性能：根据对应维度的最优秀的评价指标，提升模型在该维度上的表现。摘要模型的评估仍然是一个很大的话题，在短短一篇文章中很难全部理清。本文会就模型生成摘要的忠实度维度，讨论如下几个问题的最近进展：

　　什么是忠实度（faithfulness）？（本篇）如何评估摘要模型的忠实度？（本篇）如何提升摘要模型的忠实度？（下篇）较早关注文本摘要中的忠实度问题的文章包括[4][8][9]。我们就首先来介绍一下[4]，这篇文章系统地探索了hallucination, faithfulness, 以及factuality的概念。

　　本文探讨了如下几个核心概念：

　　hallucination（幻觉）：一般指自然语言生成模型生成了输入文本之外的信息 [6][7]。这些信息可以是无关的噪声或者发散性的语句。在文本创作的时候，hallucination并不是一件坏事，但是在文本摘要这类任务上，一般hallucination很少存在。本文作者把hallucination分为内在（intrinsic）和外在（extrinsic）两类进行讨论。“内在”指文本摘要把原文中的信息用一种新的方式呈现，而这种新的呈现方式不被原文所支持。“外在”指文本摘要引入了原文中没有的新信息。faithfulness（忠实性）：忠实性一般指生成的摘要中的信息是否能输入文本所支持，可以理解成和hallucination负相关。factuality（真实性）：真实性一般指生成的摘要中信息的真实性。一段不忠实于原文的摘要，可以同时有很高的真实性，这种信息被作者叫作“factual hallucination”。作者的立场是文本摘要中的factual hallucination如果结合了背景知识以生成更好的总结，则是可以被接受的。本篇作者通过对五种模型生成的摘要进行评估，总结出三个主要发现：（1）生成式文本摘要模型很容易生成忠实性很低的信息，即hallucination；（2）经过预训练的模型忠实度更高；（3）Rouge，BERTScore等评价指标不如文本蕴含（NLI）的模型能更好评估文本摘要模型的忠实性。下面简单总结一些论文中重要的结果。

　　数据集：本篇主要使用XSUM数据集，输入一篇新闻文本，输出一句话长度的摘要。

　　摘要模型：本篇考虑的模型有（1）经典的摘要模型PTNet，TConvSeq2Seq，TranS2S，这些模型不需要预训练；（2）预训练语言模型GPT2和用BERT初始化的BERTS2S；以及（3）人写的参考摘要（GOLD）。

　　这些摘要模型的忠实度如何？

　　作者招募了一些标注员来评估（1）上述摘要模型的幻觉现象严重程度和（2）幻觉的类型。结果如下图所示。I指intrinsic hallucination出现的比例，E指extrinsic hallucination的比例。Faith.指忠实的摘要所占的比例，+Fact.指忠实或者真实的摘要占的比例。GPT-2因为自动打分（Rouge, BertScore）的表现太差了，作者就没有让人来评估它。

　　从表格中首先可以看到，GOLD（原数据集的标签）中有很多的extrinsic hallucination，这主要是因为XSUM这个数据集是用文章的第一句话作为标签，因此在数据集上训练出的模型也会出现这个问题。再看intrinsic hallucination，人写的标签中也会出现一些，主要是因为人结合了自己的背景知识对文章中的信息进行了组合。然而，模型的instrinsic hallucination的水平比人高很多，说明模型中确实也存在这个问题。比较不同模型，PTGen由于复制的机制，extrinsic hallucination水平比较低，但是intrinsic hallucination问题最大。经过预训练的模型BERTS2S的hallucination情况最轻，即忠实度最高。作者的解释比较模糊，只是说预训练会导致BERTS2S对领域比较敏感，更不容易被训练数据集中的噪音影响。

　　最后，作者再次让人检查四个模型中的输出，找出不忠实但是真实的摘要。做完这一步之后，作者发现BERTS2S生成真实摘要的比例比其他模型好很多。

　　摘要模型的幻觉现象，忠实度，和真实性能否自动评估忠实度？

　　接下来，本篇主要探讨了如何自动评估忠实度，也就等价于自动找出hallucination。作者训练了两种模型，认为他们可能会有帮助：（1）在Multi-NLI上训练了一个文本蕴含（entailment）的模型，如果模型判断摘要不被输入蕴含，则摘要不忠实；（2）作者从QA的角度出发，用模型在摘要上生成（问题，回答），如果这些问题不能根据输入被正确回答，则摘要引入了新的信息，即hallucination。作者把这两个指标连同Rouge和BERTScore在之前的标注上进行了评估，发现文本蕴含对于忠实度的判断和人相关性最高。

　　作者接着就用文本蕴含对几个模型进行了评估，cont.为模型判断矛盾的比例，也就是文本蕴含这个指标判断模型不忠实的比例。可以看到BERTS2S在这个指标上表现最好，和人类接近。

　　最后，作者也简单探索了一下，表示可以用人类标注的数据来学习一个更好的打分模型，也可以用这个指标来选择模型。另外，因为忠实度是不参考标签的（reference-free），所以一般来说要和基于标签的指标（如Rouge）一起使用。

　　个人认为在早期尝试定义忠实度的文章中，[4]做得是较为优秀的。除此之外，这两篇更早的文章也可以进一步参考：

　　Faithful to the Original: Fact Aware Neural Abstractive Summarization [9] Ranking Generated Summaries by Correctness: An Interesting but Challenging Application for Natural Language Inference [8]评价摘要的忠实度和真实度的主要参考是人工评估 [2, 5, 16]，即使设计指标来自动评估，也需要通过计算和人的相关性进行检验。自动评估的工作主要分成如下几个流派：

　　先把摘要/正确答案/原文中的信息转化为特定的格式，然后进行对比 [10]。训练模型预测摘要中的信息是否被原文蕴含 [8]。通过QA模型来评估原文和摘要的信息是否一致 [12, 13]。设计更加统一的打分模型 [14, 15, 17]。对于每一种流派，我们选取一篇有代表性的文章介绍主要方法。

　　本篇是设计真实度的自动指标的工作中最早的尝试之一。思路很有开创性，但是在方法的设计和通用性上有一定的局限性。

　　主要方法

　　本篇中，作者主要关注的是模型生成的摘要是否事实正确。主要的方法是训练一个模型把模型的预测和正确答案分别解析成事实关系的元组（主语, 关系, 宾语），然后进行匹配，将准确度作为模型生成摘要的真实性。作者进行了一些简化，如果模型生成了无法根据正确答案来判断的事实关系，这些事实关系会被直接过滤掉，不在考虑范围之内。这个框架主要的难点在于如何从摘要中抽取出事实。为了解决这个问题，本篇通过维基百科构建了一个数据集，对于每篇文章，找到一个主要实体，然后在数据库中搜索文章中其他实体和主要实体的关系，如果有关系则构建一个正例，否则构建一个负例。然后，作者尝试在这个数据集上训练了三种不同模型：

　　命名实体抽取+关系检测（只判断两个实体之间是否存在关系，不对关系进行分类）命名实体抽取+关系分类端到端地生成所有事实关系结果

　　作者选取了一个摘要模型的30条输出，让人基于正确答案判断输出是否事实正确，去除掉无法判断的部分，然后和不同的指标计算相关系数。OpenIE是一个自动关系提取的工具,作者意在比较OpenIE和本文新训练的模型。可以看到本文设计的指标和人的标注相关性最高。但是我们从表格中也可以看到，Rouge-2这种和事实性完全无关的指标都有一定的相关性，说明本篇设计的方法和用户研究比较有局限性。

　　标注界面一些本篇没有解决的问题

　　本篇的方法只能处理预先定义好的一个关系集合忽略了原文中存在但是正确答案中没有的事实关系本篇只处理了事实正确性，没有考虑忠实度本篇和[1]来自同一组作者。[1]是一篇议论文，主要点明了摘要的自动评估中缺乏了对于consistency的关注，即很少评估摘要和输入是否在事实信息上保持一致。[5]可以看成[1]的后续，目的是想办法来解决[1]点出的问题。这里的"factual consistency"虽然里面有"fact"，但是含义应该和忠实度更为吻合，因为主要关注的都是摘要的信息是否都能被输入所支持，而不是摘要的信息是否都是正确的。

　　主要方法

　　本篇中，作者通过半监督的方式来训练一个事实一致性的模型。这个模型给定一对（文章，摘要），预测摘要是否和文章事实一致。训练集的构建方式是选定文章，从中抽取出一个句子，然后基于这个句子生成正例（忠实摘要）和负例（不忠实摘要）。正例主要通过同义改写的方式获得，作者把这些句子翻译成法语/德语/中文/西班牙语/俄语，然后再翻译回英语。对于负例，作者设计了一些规则如取反/改掉代词/改掉句中实体/改数字/加噪音的方式。从[4]的角度来看，前两种方法属于引入intrinsic hallucination，最后两种属于extrinsic hallucination，改掉实体可以是intrinsic或者extrinsic，取决于如何实现。作者也提到这种数据增强的方式对2018-19年抽象程度比较低的摘要模型是足够的，站在2023年来看，我们在过去的半年中看到了很强很可控的ChatGPT和GPT-4，想要评估它们生成的摘要，本篇的设计就不一定足够了。

　　接下来，作者用这些增强的数据微调BERT来作为打分模型。具体的训练目标有两种：（1）只训练一个二分类模型，称为FactCC；（2）在此基础之上，同时预测错误出现的开始和结束位置，称为FactCCX。根据原文的报告，训练开销还是很大的，需要8张V100上训练一天。考虑到每换一个新的领域都需要重新训练模型，本文的方法算不上很高效。

　　实验

　　本文主要的实验场景是[8]提出的数据集，这个数据集包含了CNN-DM验证集的200篇文章，目标是每篇文章的五个摘要按照正确性重新排序，评估的主要指标是正确性最高的摘要是否被排在首位。比较的方法也来自于[8]，主要是一些其他的NLI模型。另外比较的两个基线是在MNLI或者FEVER上微调BERT。可以看到FactCC在这个数据集上识别最正确的摘要的性能强于其他模型。

　　FactCCX的另一个好处是可以对标注证据，用来对不正确的信息进行解释。作者进一步做了两种标注实验：（1）问标注者FactCCX标注的证据是否有用；（2）让人来判断正确性并且标注证据，评估人标注的证据和FactCCX给出的证据是否吻合。结果见下图，可以看到效果还是比较好的。

　　一些本篇没有解决的问题

　　作者发现对抽象程度比较高的摘要经常会被识别为不正确。换句话说，模型很难分辨改动很大的同义改写和extrinsic hallucination。不过，这两者之间可能本身就有很多交集 [4]。一条很直接的思路：如果摘要引入新的信息或者修改了原文信息，如果对这些信息提问，回答的模型分别参考原文和摘要时就会找到不同的答案。本篇和[13]思路非常相近，一起上了ACL 2020的主会，到现在引用数也比较接近。也不知道这两组作者之间是否有一些其他的恩怨，就选取靠前的一篇总结一下了: )

　　主要方法

　　本篇设计的指标QAGS主要分成三个步骤：

　　根据文本摘要生成若干问题。本文使用了一个在NewsQA上训练的BART模型来根据答案（命名实体）生成问题。在摘要文本中随机选取若干个命名实体，然后用beam search的方式解码出若干个问题。基于输入或者摘要生成这些问题的答案。本文使用一个在SQuAD2.0上微调过的BERT模型来抽取式地生成答案。比较两个版本答案的吻合率，吻合率越高则忠实度越高。本文使用token-level F1进行评估。实验结果

　　作者首先比较了一下QAGS和之前的指标相比和人评估faithfulness分数的相关系数，发现QAGS最高。这里作者baseline的选取并不是很全面，感觉至少应该比较一下基于NLI的方法。

　　之后，作者重复了FactCC的实验场景，展示出来QAGS能进一步提高rerank的准确度。

　　一些本篇没有解决的问题

　　对于高度抽象的summary，抽取式的QA加上exact match的F1很难评估忠实度。用某一个具体的数据集来训练问题生成和问答模型可能会很难泛化。作者提的框架是很好的，只是在2023年回看，或许QG和QA的模型都可以换成LLM来实现。在介绍接下来的方法之前，我们先介绍一个人工评估的数据集：SummEval。本文承接[1][5]，同样来自Salesforce。通过看之前的几篇文章，不难发现在当时自动指标设计研究中的主要问题是评估指标性能（即meta-evaluation）的实验规模有点太小。为了解决这个问题，[16]的作者对23个模型在CNN/Dailymail上的100篇文章上的数据进行了标注。标注的内容就是相关性（relevance），一致性（consistency），流畅性（fluency），连贯性（coherence）四个指标。然后对比了当时较为常见的指标和人工标注的一致性。SummEval是第一个比较大的文本摘要的元评估数据集，后续设计新指标的研究如[14][15]等都在SummEval上进行了测试。

　　在本文之前，大部分的自然语言生成评估的工作局限于特定某个任务的特定某个维度。本文提出了一个更加统一的框架，将自然语言生成的任务分成三类：压缩（compression，如文本摘要）、转导（transduction，如翻译）、创造（creation，如故事生成）。作者引入了一个中心的概念叫“信息对齐”（information alignment）。将a到b对齐的过程记作align(a->b)，这是一个和a中token的数量相同的向量，计算的是a的每个token在多大程度上和b一致。在这个框架下评估这三种任务，主要需要解决两个问题：

　　（1）如何把三种任务的目标用对齐来表达？

　　对于文本压缩类任务，作者认为主要的目标是“一致性”（consistency）和“相关性”（relevance）。一致性表达为align(输出->输入)，即输出的每个token都应该能在输入中找到一定的对应。相关性表达为两项，分别是align(正确答案->输出)和align(输出->输入)，最终的分数是两项分别求平均再乘起来。这里会有一点点奇怪，(1) 看起来两个目标没有完全分开，作者的说法是相关性也需要模型的输出和输入文本有一定的一致性; (2)似乎这个指标只有recall，没有考虑precision（比如align(输出->正确答案)）。对于文本转导类任务，作者设计的是一个类似F1的指标，称作信息留存（preservation），用align(输入->输出)和align(输入->输出)进行计算。对于文本创造类任务，作者设计了“吸引力“（engagingness）和“接地性”（groundedness）。这里主要用了对话生成作为例子。engagingness用align(输出，[对话历史，背景知识])来评估，groundedness用align(输出，背景知识)来评估。（2）如何实现align函数？

　　作者考虑了三种实现方式：用嵌入逐个token进行匹配（E），用序列标注的方式打分（D），直接估计（R）。大意如下图所示。具体的实现就略过了，可以参考原文附录。主要的实现方法是给定输入先用无监督的方法生成输出，然后进行同义改写，之后再进行掩码用BART重新预测，重新预测的部分就视为负例，其他部分视为正例。

　　实验

　　作者分别在文本摘要、风格转换、对话的三类任务上进行了评估。由于文本的侧重点原因，我们只看一下文本摘要上一致性的结果，对应的就是忠实度。主要就在[16][12]的数据上进行了实验，baseline就是FactCC和QAGS。可以看到D在众多评估指标中表现最好，E在XSUM上的表现非常差，作者认为主要是因为XSUM的摘要抽象程度很高，不好匹配。

　　本篇发表在[14]一年之后，主要的动机是[14]很难评估一些维度，比如文本摘要上的naturalness和coherence。和[14]的EDR不同，本篇把打分转化成使用T5做Boolean QA的形式。给定模型输出x，正确答案y，输入/背景c，以及维度d_i对应的问题q_i（一个Yes/No的问题），模型的打分可以写成如下形式：

　　举个例子，下图就展示了评估coherence和relevance的模板。

　　训练

　　UniEval的训练主要分成两步：

　　首先，先将T5在四类中间任务上进行微调：（1）NLI，（2）开头句预测，（3）CoLA，（4）QA。作者把这四类任务都转化成了答案为Yes/No的Boolean QA形式，总数据量大约186k。训练之后的中间模型即为MingZhong/unieval-intermediate · Hugging Face。然后，根据实际要评估任务的不同，设计一系列维度。对于每个维度，通过进行各种基于规则的扰动构造Boolean QA格式的训练数据。比如对于文本摘要，作者就设计了coherence, consistency, fluency, relevance四个维度。在训练时作者发现同时训练这些任务会导致一些冲突，更好的训练方法是逐个任务微调，在微调后面任务时重放（replay）20%左右之前的数据。实验

　　作者在三类任务上进行实验：summarization, data-to-text, dialogue。这里我们只看一下SummEval的结果：

　　之后，作者也进行了一些其他分析，指出UniEval的范式的一大好处就是可以很容易泛化到新的维度上。作者在“可理解度”的新维度和data-to-text的新任务上进行了实验，展示出来了很好的泛化效果。不过个人认为在UniEval的框架下，想要在目标任务的评估上做到最好，还是需要对模型进行一定程度的微调，这一点在[17]上有所改进。另外作者也进行了一些ablation studies，展示出对忠实度/一致性来说NLI的中间任务是很重要的。把所有维度放在一起考虑，QA的中间任务是最重要的。

　　本篇是非常新的一篇文章，在笔者写作本篇综述时刚刚放出来。本文的出发点是很明显的：大语言模型（LLM）的能力似乎在GPT-3和GPT-4上产生了质的飞跃，那么将其作为评估指标，“大模型评价小模型”就听起来越来越有可行性了。本文提出了一种利用chain-of-thought（CoT）来提升LLM打分模型的机制，主要工作流程如下：将任务的定义和评估维度的定义输入LLM，先生成评估的步骤，然后把这些文本再加上需要评估的输入和输出，用一种填表的方式再次输入LLM得到分数。最后，用1~5的分数乘上对应概率得到一个更细粒度的分数。

　　本文的实验设定直接采用了UniEval的主要设定，发现如下：（1）本文的方法基本可以在UniEval的benchmark上做到sota，在评估比较开放性的对话生成任务上尤为有效；（2）本文的方法对输入模板比较敏感，CoT可以提升性能；（3）分数乘上概率让最终的打分变得更细粒度；（4）本文的方法相比人类会更偏好LLM的输出。另外，本文也发现GPT-4比GPT-3.5在大多数情况下有显著的提升。总的来说，本文更像是一篇分析部分还没有完全完成的早期版本的“占位”文章，同时在方法上的novelty也不是很高。所以本文也不过多分析，对实验结果感兴趣的读者可以直接查看原文。

　　在本篇文章中，我们首先通过一篇早期工作讨论了忠实度和真实度的含义是什么。然后，我们综述了评估文本摘要忠实度/真实度/一致性的各种方法。可以看到不管是对于不同任务还是不同评价维度，较为普遍的趋势是趋向于大而统一：更大的元评估实验设定、更多的预训练、更大的模型、更统一的视角，等等等等。当下，GPT-4的出色表现引起热议，但是似乎构建更可控、可解释、鲁棒的文本生成指标仍然是一个开放问题，还有很长的路要走。

　　下篇文章中，我们会探讨一下提升近期文本摘要的忠实性的相关工作。

　　[1] Neural Text Summarization: A Critical Evaluation (Kryscinski et al., EMNLP-IJCNLP 2019)

　　[2] SummEval: Re-evaluating Summarization Evaluation (Fabbri et al., TACL 2021)

　　[3] News Summarization and Evaluation in the Era of GPT-3 (Goyal et al., arXiv 2022)

　　[4] On Faithfulness and Factuality in Abstractive Summarization (Maynez et al., ACL 2020)

　　[5] Evaluating the Factual Consistency of Abstractive Text Summarization (Kryscinski et al., EMNLP 2020)

　　[6] Object Hallucination in Image Captioning (Rohrbach et al., EMNLP 2018)

　　[7] Hallucinations in Neural Machine Translation (Lee et al., NIPS IRASL 2020)

　　[8] Ranking Generated Summaries by Correctness: An Interesting but Challenging Application for Natural Language Inference (Falke et al., ACL 2019)

　　[9] Faithful to the Original: Fact Aware Neural Abstractive Summarization (Cao et al., AAAI 2018)

　　[10] Assessing The Factual Accuracy of Generated Text (Goodrich et al., KDD 2019)

　　[11] Ensure the Correctness of the Summary: Incorporate Entailment Knowledge into Abstractive Sentence Summarization (Falke et al., ACL 2019)

　　[12] Asking and Answering Questions to Evaluate the Factual Consistency of Summaries (Wang et al., ACL 2020)

　　[13] FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization (Durmus et al., ACL 2020)

　　[14] Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation (Deng et al., EMNLP 2021)

　　[15] Towards a Unified Multi-Dimensional Evaluator for Text Generation (Zhong et al., EMNLP 2022)

　　[16] SummEval: Re-evaluating Summarization Evaluation (Fabbri et al., TACL 2021)

　　[17] GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment (Yang et al., arXiv 2023)

　　John Schulman，研究科学家、OpenAI联合创始人；加州大学伯克利分校计算机科学博士，师从Pieter Abbeel。现领导OpenAI强化学习团队。

　　本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Feedback: Progress and Challenges》的内容总结，并加入一些本人的个人看法及疑惑，由于本人能力有限，内容不保证完全正确，欢迎大家一起讨论并批评指正。特别感谢Oneflow对该报告的中文翻译John Schulman：强化学习与真实性，通往TruthGPT之路，本文中的部分内容直接引用了相关的中文翻译文本。

　　两种不同的原因：

　　由于预训练任务造成的。模型在预训练时的目标是通过之前的文本生成下一时刻最有可能的token，这样会导致：模型可能意识不到自己可以输出“我不知道”或者表达不确定性：通过上述的预训练方式可能会导致模型不知道自己可以回答“我不知道“。那么，当它拥有的知识无法回答一个问题时，他就会输出胡言乱语或者hallucinations. 如果告诉模型可以回答“我不知道”，那么在一定程度上能解决幻觉问题。怎么告诉？如果直接在SFT中告诉，这个度很难把握，训练过度了，模型可能会对自己知道的信息也说不知道（隐瞒自己的知识），训练不足的话还是会胡说八道。JS的意思是用RL的方式效果会更好一些。模型有时不愿意去质疑前提（premise）：模型会认为前提是数据分布的一部分，也就是输入的prefix prompts or texts，他可能会自动认为这些文本是正确的前提下进行inference，这也在一定程度上解释了LLM为什么会这么容易被攻击，如下示例。模型有时会陷入谎言之中。如果模型已经犯了一个错误，那么它会认为自己应该继续回答下去，生成一连串响应，这也意味着它会继续说谎。上一点会增强这点，也就是他会把自己犯的错误强行当成正确的，他会直接把这些内容看作是数据分布的一部分，以这些内容为基准去预测下一个单词。输入：林黛玉倒拔垂杨柳是什么典故？ChatGPT：林黛玉倒拔垂杨柳是《红楼梦》中的一个典故，主要描写林黛玉因思念贾宝玉而悲伤至极，最终在贾母的安排下前往荣府，路上看到一棵垂杨柳，情不自禁地倒拔起树枝，表达了她对贾宝玉的思念之情。这个典故寓意深刻，表达了人们在感情中所遭遇的痛苦和无奈，以及对爱情的执着追求。文心一言上的多轮对话：["林黛玉和鲁智深是什么关系", "林黛玉和鲁智深没有关系。\n林黛玉是《红楼梦》中的主要人物之一，为人聪明才智，容貌美丽，感情敏锐，自尊敏感。而鲁智深是《水浒传》中的一位英雄人物，他勇敢、忠诚、讲义气，性格豪爽、直率。\n因此，林黛玉和鲁智深之间并没有直接的关系。", "你说的不对，他们是表兄妹", "抱歉，我之前的回答有误。您是对的，林黛玉和鲁智深是表兄妹关系。林黛玉是贾宝玉的表妹，而贾宝玉是鲁智深的好友。感谢您的指正。]2. 语言模型的另一类幻觉是“猜错了”。这种就是说，有的知识可能出现的次数比较少，导致LLM对这类知识的记忆比较模糊，所以导致的幻觉。就像人类一样，你可能只遇到过一次某件事情，自己不能确定，感到很模糊，所以在回答时需要带点猜测，才能复述事物的全貌，有时可能就会猜错。例：

　　尝试让模型写一篇关于JS的个人介绍。InstructGPT回答，“John是一位AI研究科学家，在OpenAI工作。他曾是卡内基梅隆大学的计算机科学教授等等。”此外还增加了一堆虚构的东西。GPT-3.5的回答有点模糊，但基本上正确，它说JS本科就读于斯坦福大学，在Pieter Abbeel的指导下做研究，还提到了信赖域策略优化（TRPO）方面的内容。GPT-4的回答几乎完全正确，但也有些许瑕疵，比如它说JS主修数学，其实并没有，对JS取得本科学位的年份描述也有一年的误差。这其实就属于“猜错了”：模型尝试给出一个全面的答案，但结果却出现了错误。这样的结果是好是坏在一定程度上取决于这份个人简介的用途：如果想将其放在网上，那么肯定存在问题；但如果仅仅是某人想要了解JS，那么年份误差一年也不会有太大影响。JS提出的概念模型JS原文：到底为什么会产生“幻觉”？我将描述一个概念模型加以解释。上图是一个知识图谱，包含一些事实，比如《星球大战》属于科幻类，Han Solo是《星球大战》中的一个角色，以三元组形式排列。这尽管是传统人工智能的知识储存方式，仍然很有用。该概念模型能解释当你对神经网络进行微调以完成某种问答任务时会发生什么。神经网络中包含信息，可以将其看作类似知识图谱的东西，以某种非常复杂的方式存储在权重中。每条边（edge）都有一些置信度，不同的边置信度不一样，原因是，某些事实被看了上百万次，而有些事实可能只看了一两次。如果只抛给预训练模型一个问题，如“《星球大战》属于什么类型？”，那么它就不知道该问题的上下文是什么，不清楚这些文本的来源是哪里，是信息性网站、恶作剧网站还是虚构文本。而微调就是让模型专门输出正确的答案或在微调数据集中的内容。行为克隆（behavior cloning）是强化学习领域的一个术语，意思是监督微调或最大化似然（maximizing likelihood），其目的是完成给定prompt的最大化似然或最大化对数概率。如果用行为克隆来训练模型，比如使用人类编写的正确答案或使用ChatGPT的输出进行训练，那么即使用100个正确的答案进行克隆，由于模型缺乏所有相关的事实，仍然是在教会模型产生幻觉。例如，如果训练模型回答有关Han Solo的相关问题，但知识库截止日期是5年前，因此模型不知道有一部围绕Solo的衍生电影。这种情况下，你实际上不是在训练模型输出正确答案，而是在训练它在这种问题上进行猜测。JS引入了一个概念模型来解释LLMs为什么会产生幻觉。这个概念模型其实就是一个知识图谱，然后他认为说LLMs黑盒里也暗藏了一个类似知识图谱的东西。那么，如果这个知识图谱中没有的知识，你通过SFT教他(行为克隆),只是在教他输出幻觉。(疑问：为什么SFT不是在给这个知识图增加边呢？)

　　因此得到结论：如果你使用行为克隆来训练模型，那么无法避免出现幻觉问题，同时也会出现相反的问题，即如果你想训练模型在某些情况下回答“我不知道”，那么它可能会隐瞒实际上已经知道的信息。例如，如果标注者不知道答案，他们可能会将“我不知道”列为目标答案，但实际上网络可能已经有了答案，你只是在训练模型隐瞒信息。

　　因此，行为克隆或监督学习的问题在于：正确的目标实际上取决于神经网络中包含了哪些知识（这是个黑盒，很难清楚的知道LLM到底有哪些知识），而这对于收集数据或进行实验的人来说是未知的。因此，除非你有一种方法来查看模型中的内容，否则无法使用行为克隆训练出真实可信的模型。

　　JS在这里给出了一个解决方案：

　　问模型问题，模型答对了就作为目标答案，答错了或与答案不一致时就标注ground truth为“我不知道”。通过这种方式标注一些数据，以探索或者说标注出模型的知识边界。(疑问：打错了或者与答案不一致时就说明模型不具备这个知识吗？假如上述假设成立，那岂不是可以反复问模型问题，然后做错的就记录下来，然后把label改成“我不知道”放到training data里再训练他自己，逐步把他的知识边界标出来？)

　　JS原话：现在有了一些略微不同但比较聪明的方法，比如在数据标注时，让标注者询问模型问题并查看答案是否彼此一致。如果一致，则检查是否正确；如果正确，则作为目标答案；如果完全不一致，则回答“我不知道”；如果错误，则同样回答“我不知道”。这种做法的结果稍微好一点，但操作过程更加困难，而且很难实现自动化。总的来说，这仅适用于特定模型。知之为知之，不知为不知，是知也。那LLM知道自己不知道吗？

　　JS认为答案是肯定的。因为预训练任务就是在预测下一个token的概率，逻辑上说这个概率就能够表达模型的不确定性，只是SFT(行为克隆)没有充分利用这点去缓解幻觉。有几篇论文已经研究了这个问题：

　　Language models （mostly）know what they knowTeaching models to express their uncertainty in words简单的在SFT的数据中加入类似“我不知道”或“我的知识截止到XX时”，可以让模型知道可以输出这种答案，但是在inference时回答这种答案的时机很难准确。

　　JS的观点：模型确实知道自己的不确定性，行为克隆无法利用这一点来避免幻觉，强化学习才是解决这个问题正道。

　　希望让模型学到在不会的时候说“我不知道”。做法如下：

　　在模型给出的输出是正确的并且置信度很高时，给予很高的奖励。

　　在模型给出的输出是正确的但置信度低时，给予稍差的奖励。

　　在模型回答无意义信息时，如“我不知道”，奖励为0。

　　在模型回答错误的信息并且置信度低时，给予更大的惩罚。

　　在模型回答错误的信息并且置信度很高时，给予最大的惩罚。

　　JS设计的奖励机制TriviaQA是一个问答数据集，有选项，一般是通过题目内容进行常识推理得出选项的题目。

　　通过一部分数据对LLM进行SFT(行为克隆), 可以很快提升准确率。但是JS认为这小部分数据并不能让模型学到新知识，只是学到了问题模式和处理方式。我个人理解，有点类似于一个人死记硬背也能做对一些题目但是本质上不理解为什么。

　　行为克隆的另一个问题：如果你只在正确答案上进行行为克隆，那么模型对所有问题都会给一个回答，因为我们从未告诉它输出“我不知道”这样的答案，若遇到不知道的问题，它只能进行猜测而不会说“我不知道”，那么自然会出现Hallucinations。如果进行相应的改进，比如说自己构造一些数据，将答案设置为“我不知道”，则会回到之前的问题，即模型可以学到可以输出“我不知道”，但难以把握输出“我不知道”的时机。并且构造这种数据上也有些困难，因为我们并不知道模型不知道哪些知识。（和第一章节中的内容一致）

　　用刚刚说的强化学习的方式，设定一个阈值(e.g. 50%)，当概率最高的选项对应的概率大于该阈值时，则回答，否则就回答“我不知道”。回答错误给惩罚，回答正确给奖励，不回答时不奖不罚。用这种方式训练的模型，可以达到的效果是即使模型本身看不到自己对回答的概率，依旧可以学到最佳阈值行为。（这里有点貌似没有说明，单说准确度或许SFT更高？因为SFT可能有一部分猜对的题目，但是实用性来看，基于RL训练的model可能更优，因为可靠性更高。）

　　如果先训练一个reward model，然后用这个reward model对LLM进行训练，也是可以达到类似的效果，但是比直接用oracle model的差一些。

　　TriviaQA实验对于长篇的回复，类似ChatGPT的回复内容，很难用完全错误或者完全正确来评价，大部分情况是对中有错，错中有对，所以极具误导性。针对大部分开放性的问题，我们也没有一个完全正确的答案，让标注者去标注这种类型的答案也是不实际的，因此，openai的做法是让标注者对多个回复进行排序，然后用这个排序信息训练RM，再用RM训练LLM，以上步骤即为RLHF。

　　JS原话：我们没有完美的答案，而是需要让人们对回答进行排序，并说出哪个更好。人们必须根据错误的严重程度来判断模型给出的答案，这在很大程度上取决于上下文。举一个编程的例子：模型写了100行代码，只有一个地方的参数写错了，这种情况下我宁愿让它给出这个答案，也不愿让它回答“不知道”，因为我至少可以在其基础上运行和调试。但是在其他情况下，这种错误可能是一个大问题。ChatGPT的真实性评估GPT-4博客文章中有一些模型评估指标可以衡量准确性。评估的方式是为每个问题提供一个参考答案，并由人类检查，然后比较模型生成的答案与参考答案之间的一致性。GPT-4提升了很多，JS对其原因一笔带过：“随着数据越来越多，相应指标上都有所改善。”

　　一个可以改进的点：目前的基于排名的RM预测输出的是一种类似于对数概率的值，表明某个回答比另一个更好，但它并没有真正说明一个比另一个好多少，只是表明它对哪一个回答更有信心。模型并没有就事实错误的严重程度和错误的模糊程度施以正确的惩罚。（我感觉openai内部应该已经在尝试解决这个问题了，也或许已经改进了。。。。）

　　这里也提到了一些标注上的困难：

　　JS原话：此外，标注者的错误肯定也有很多。有时标注者没有足够的信息来做出正确的标注，人类无法始终正确地进行排名，比如有些问题可能涉及到用户计算机上的某些代码库，标注者就无法访问。我们尝试让标注者跳过他们无法回答的问题，但也还有很多其他错误。当然，在阅读长篇答案时，要捕捉到其中的每一个错误是不可能的。目前带有搜索插件的ChatGPT的底层技术可能是参考了WebGPT，同样是使用了RL的方法训练模型，最终目标是在LLM模型认为自己不知道一个问题的情况下，通过搜索并总结的方式得到答案，提升模型回复的真实性，并且可以输出模型中间的思考（如，为了去了解XXX，我准备搜索XXX的相关内容）及参考的引用网址。个人认为这个工作是在模型能够正确的认识到自己的知识边界后进一步增加回复事实准确性的方法。我们目前仅关注第一步，即如何减少模型输出的Hallucinations并让其认识到自己的知识边界。所以这部分暂且跳过，后续有空再填坑~

　　如何激励模型真正准确地用语言表达不确定性。这意味着我们要使用适量的模糊陈述，并尽可能地解释模型的全部知识状态。例如，现在问一个模型复杂的问题，他可能不知道这个问题的答案，但知道一些相关的信息。那么，目前的模型可能会猜(输出Hallucinations)或者说我不知道。我们希望他能够回答“我不知道具体答案，但是我知道相关的信息以供参考，包括XXX”就是在表达了自己不确定性的同时输出自己知道的所有相关的信息。

　　JS认为：目前的奖励模型并没有准确衡量答案之间的好坏差距，更像是衡量了答案好坏差距的信心(confidence)。（为什么衡量了答案好坏差距的信心(confidence)？）

　　可能的一些解决方案：

　　改进评分标准，提升奖励模型？在自然语言语句旁添加一些正式的概率声明？----JS提出的，具体做法不详，可能是把模型的概率作为自然语言拼接到输出文本中？设立目标进行多智能体交互？----JS提出的，不明白怎么做。。。希望大佬可以指点一二针对特殊领域或者小众问题的长答案，让标注者对其输出的逐句进行正确性验证是不实际的。所以，我们希望能够训练一个模型能够帮助我们来代替标注者或辅助标注者进行复杂标注。

　　JS原话：拿P vs NP问题来说，一种解释是：让弱智能体为强智能体提供激励，通过这种方式，最优行为可以解决弱智能体无法解决的问题。我们可以让标注者训练模型，让模型完成标注者无法做到的事，理论上这是可行的。可能的解决方案：

　　尝试对任务进行分解并委派让模型对每个句子做事实核查，然后自动聚合所有结果。设置激励机制，让智能体们去竞争验证器的批准，并检查其余选择的错误原因。RLHF是通过人类的反馈训练的模型，那么模型学到的是怎么用人类的语言与人类交流，但人类并不能掌握所有事情的正确答案。所以，可能学会的是向互联网上的文字一样，会生成让人类非常容易相信的易读的文本，但不一定正确。希望以后能基于客观事实进行优化，增加更多算力，在模型训练上投入更多精力，尽可能地接近事实真相。

　　或许高质量的现存知识图谱可以用来指导模型生成符合客观事实的内容？不过可能高质量的现存知识图谱涵盖的知识范围太小。

　　以上即为全部内容，如何缓解大语言模型生成Hallucinations是一个非常核心的问题。希望大家可以多多讨论～

　　干货预警：这可能是你能够找到的最容易懂的，最完整的，适用于各种NLP任务的开源LLM的finetune教程~

　　ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，是目前社区非常活跃的一个开源LLM。

　　本范例使用非常简单的，外卖评论数据集来实施微调，让ChatGLM2-6b来对一段外卖评论区分是好评还是差评。

　　可以发现，经过微调后的模型，相比直接 3-shot-prompt 可以取得明显更好的效果。

　　值得注意的是，尽管我们以文本分类任务为例，实际上，任何NLP任务，例如，命名实体识别，翻译，聊天对话等等，都可以通过加上合适的上下文，转换成一个对话问题，并针对我们的使用场景，设计出合适的数据集来微调开源LLM.

　　B站视频讲解：

　　https://www.bilibili.com/video/BV1ds4y1F74ynotebook源码：

　　www.github.com/lyhue1991/torchkeras我们需要从 https://huggingface.co/THUDM/chatglm2-6b 下载chatglm2的模型。

　　国内可能速度会比较慢，总共有14多个G，网速不太好的话，大概可能需要一两个小时。

　　如果网络不稳定，也可以手动从这个页面一个一个下载全部文件然后放置到一个文件夹中例如 'chatglm2-6b' 以便读取。

　　我们来测试一下

　　我们拿外卖数据集测试一下未经微调，纯粹的 6-shot prompt 的准确率。

　　可以看到，微调之前，我们的模型准确率为87.8%，下面我们通过6000条左右数据的微调，看看能否把acc打上去~

　　我们需要把数据整理成对话的形式，即 context 和 target 的配对，然后拼到一起作为一条样本。

　　ChatGLM模型本质上做的是一个文字接龙的游戏，即给定一段话的上半部分，它会去续写下半部分。

　　我们这里指定上半部分为我们设计的文本分类任务的prompt，下半部分为文本分类结果。

　　所以我们微调的目标就是让它预测的下半部分跟我们的设定的文本分类一致。

　　为了将文本数据喂入模型，需要将词转换为token。

　　也就是把context转化成context_ids，把target转化成target_ids.

　　同时，我们还需要将context_ids和target_ids拼接到一起作为模型的input_ids。

　　这是为什么呢？

　　因为ChatGLM2基座模型是一个TransformerDecoder结构，是一个被预选练过的纯粹的语言模型(LLM，Large Lauguage Model)。

　　一个纯粹的语言模型，本质上只能做一件事情，那就是计算任意一段话像'人话'的概率。

　　我们将context和target拼接到一起作为input_ids， ChatGLM2 就可以判断这段对话像'人类对话'的概率。

　　在训练的时候我们使用梯度下降的方法来让ChatGLM2的判断更加准确。

　　训练完成之后，在预测的时候，我们就可以利用贪心搜索或者束搜索的方法按照最像"人类对话"的方式进行更合理的文本生成。

　　可以看到，通过使用LoRA微调方法，待训练参数只有全部参数的3%左右。

　　我们使用我们的梦中情炉torchkeras来实现最优雅的训练循环~

　　注意这里，为了更加高效地保存和加载参数，我们覆盖了KerasModel中的load_ckpt和save_ckpt方法，

　　仅仅保存和加载lora权重，这样可以避免加载和保存全部模型权重造成的存储问题。

　　曲线下降非常优美~

　　acc= 0.903

　　还行，用6000条数据，训练了一个小时左右，准确率到了90.3%，比未经微调的prompt方案的87.8%相比涨了两个多点~

　　我们可以调整温度temperature参数，看看有没有机会把这个评论

　　'死鬼，咋弄得这么有滋味呢' 预测正确

　　可以看到，这个评论模型其实是不太吃得准它是好评还是差评的，毕竟，死鬼这个词的内涵太丰富了，跟字面的意思并不一样

　　我们测试一下模型的其他场景对话能力是否受到影响？

　　可以将模型和tokenizer都保存到一个新的路径，便于直接加载。

　　还需要将相关的py文件也复制过去。

　　收工。

　　本教程notebook源码，以及更多有趣范例，见torchkeras仓库下的examples路径~

　　torchkeras

　　开局一道面试题。

　　面试官：大模型微调如何组织训练样本？你：大模型训练一问一答，一指令一输出，问题和指令可以作为prompt输入，答案作为输出，计算loss的部分要屏蔽掉pad token。面试官：多轮对话如何组织训练样本呢？你：假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。面试官：这样的话一个session变成了三条数据，并且上文有依次重复的情况，这样会不会有啥问题？你：数据中大部分都是pad token，训练数据利用效率低下。另外会有数据重复膨胀的问题，训练数据重复膨胀为 session数量*平均轮次数，且上文有重复部分，训练效率也会低下。面试官：你也意识到了，有什么改进的方法吗？你：有没有办法能一次性构造一个session作为训练样本呢？（思索）面试官：提示你下，限制在decoder-only系列的模型上，利用模型特性，改进样本组织形式。对于这个问题，我们思考下decoder-only模型有啥特点，第一点很关键的是其attention形式是casual的，casual简单理解就是三角阵，单个token只能看到其上文的信息。如图所示：

　　其二是postion_id是只有token次序含义而无需特定指代信息，（区别于GLM模型需要postion_id来标识生成span的位置等特殊的要求）。有了这两点我们就可以设想，如果构造多轮对话样本的input为 Q1 A1 <eos> Q2 A2 <eos> Q3 A3 <eos>，在计算loss的时候，只需要计算 A1 <eos> A2 <eos> 和 A3 <eos>部分，岂不是就可以进行session级别的训练了？嗯为什么原来的chatglm不能用这种形式呢，虽然prefix attention可以推广为适应多轮训练的prefix attention形式，如图：

　　但是由于其postition id 无法简单按次序推广，故不能高效训练，这也是chatglm初代的很大的一个问题，导致后续微调的效果都比较一般。图片现在chatglm2的代码针对这两个问题已经进行了改善，可以认为他就是典型的decoder-only模型了，具体表现为推断时候attention 是casual attention的形式，position id也退化为token次序增长。那么好了，万事具备，只欠东风。我们据此实现了chatglm2-6b的代码微调。其核心代码逻辑为处理样本组织的逻辑，其他的就是大模型微调，大同小异了。

　　'''pythonconversation = ''input_ids = []labels = []eos_id = tokenizer.eos_token_idturn_idx = 0for sentence in examples[prompt_column][i]: sentence_from = sentence["from"].lower() sentence_value = '[Round {}]\n\n问：'.format(turn_idx) + sentence["value"] + '\n\n答：' if sentence_from == 'human' else sentence["value"]+'\n\n' conversation += sentence_value sentence_ids = tokenizer.encode(sentence_value, add_special_tokens=False) label = copy.deepcopy(sentence_ids) if sentence_from != 'human' else [-100] * len(sentence_ids) input_ids += sentence_ids labels += label if sentence_from != 'human': input_ids += [eos_id] labels += [eos_id] turn_idx += 1input_ids = tokenizer.encode('') + input_ids #add gmask bos labels = [-100] * 2 + labels# #add paddingpad_len = max_seq_length - len(input_ids)input_ids = input_ids + [eos_id] * pad_len labels = labels + [-100] * pad_len'''其中有几个关键的地方，就是在开头要加上 bos和gmask，遵循模型原来的逻辑。问答提示词和轮次prompt，还有两个\n保持和原模型保持一致，最后屏蔽掉pad部分的loss计算。实测训练效果如下：

　　同样的数据在chatglm1上 train loss只能降到2.x左右，同时评估测试集结果，在同样的数据上rouge等指标都有不小的提升。我们再仔细回顾下，对话session级别训练和拆开训练从原理上有啥区别？1. session级别训练，效果之一为等价batchsize变大（1个batch可以塞下更多样本），且同一通对话产生的样本在一个bs内。2. session级别的不同轮次产生的梯度是求平均的，拆开轮次构造训练是求和的，这样除了等价于lr会变大，还会影响不同轮次token权重的分配，另外还会影响norm的计算。我们用一个简化地例子定量分析下，我们假设两条训练样本分为 1.问：A 答：xx2.问: A 答：xx 问: B 答：xx 问: C 答：xx

　　则session级别训练影响梯度为 (Ga+(Ga + Gb + Gc)/3 )/2。对 A，B，C影响的权重分别为，2/3 1/6 1/6。拆开训练为 (Ga+Ga+ (Ga + Gb)/2 +(Ga + Gb + Gc)/3)/4。对 A，B，C影响的权重分别为，17/24 5/24 1/12。从上面的权重分布来看，session级别靠后的轮次影响权重要比拆开更大。这也是更合理的，因为大部分场景下，开场白都是趋同和重复的。一点小福利，以上面试题对应的ChatGLM2-6B 微调完整的代码地址为：https://github.com/SpongebBob/Finetune-ChatGLM2-6B实现了对于 ChatGLM2-6B 模型的全参数微调，主要改进点在多轮对话的交互组织方面，使用了更高效的session级别高效训练，训练效果相比原版ChatGLM-6B有较大提升。这可能是目前全网效果最好的ChatGLM2-6B全参数微调代码。