从大炼模型到炼大模型1.75万亿参数,全球最大预训练模型问世

  机器之心报道

  编辑:蛋酱、杜伟

  当人工智能已进入「大数据 + 大算力 + 大模型」时代,拥有 1.75 万亿参数的「悟道 2.0」,如何延续暴力美学的奇迹?

  6 月 1 日,由北京智源人工智能研究院主办(以下简称智源研究院)的 2021 北京智源大会正式开幕。本次大会采用线上、线下方式同步举行的方式,将全球各地的 AI 研究者联结在一起。大会为期三天,涵盖 4 场全体大会,29 个分论坛,并在会议前一天举行了 4 场重量级前沿讲习班。

  相比于历届北京智源大会,这一届大会更加注重学术前沿进展的追踪和探讨,共邀请了 200 余位近期在学术领域有重大进展或突破的学者。此外,两位图灵奖得主 Yoshua Bengio、David Patterson,英国皇家学会院士、马克斯 · 普朗克生物控制研究所所长 Peter Dayan 分别从深度学习、体系架构以及类脑智能三方面带来了精彩报告。

  北京市副市长靳伟致辞。

  北京市副市长靳伟在开幕致辞中表示:「人工智能是引领新一轮科技革命和产业革命的战略性技术。北京的智源大会今年已经是第三届,为国内外人工智能领域优秀人才搭建了前沿学术研讨和思想交流的广阔平台,希望大家借助智源大会这个平台深入的研讨全球人工智能发展的趋势,积极开展科学研究、技术研发、人才培养、伦理实践等交流合作,对外发出更多的北京声音,为全球的人工智能治理贡献更多更好的倡议和方案。」

  大会首日即有重磅发布:清华大学教授、智源研究院学术副院长唐杰在开幕式上正式发布了「悟道 2.0」人工智能巨模型。它以 1.75 万亿参数量打破了此前谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录,成为了全球最大的预训练模型。

  1.75 万亿参数,全球最大预训练模型「悟道 2.0」问世

  2020 年 5 月,OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3,它不仅能够写文章、答题、翻译,还具备多轮对话、敲代码、数学计算等能力。其所使用的最大训练数据集在处理前达到了 45TB,当绝对的数据遇上绝对的算力,GPT-3 仿佛已经可以为所欲为。更重要的是,它展示了一条探索通用人工智能极富潜力的路径,这让一些研究者大胆判定:GPT-3 将改变世界,真正的 AI 要来了。

  2021 年 1 月,谷歌大脑又发布了提出了 Switch Transformer 架构,将语言模型的参数量扩展到了 1.6 万亿,又一次刷新了大模型的参数纪录。Switch Transformer 简化了 MoE(Mixture of Experts) 的路由算法(routing algorithm),设计了直观的改进模型,使得通信成本和计算成本都大大降低。但 MoE 离不开对谷歌分布式训练框架 mesh-tensorflow 和 Google 定制硬件 TPU 的依赖,抬高了应用和研究的门槛,绝?多数人无法得到使用与研究机会。

  在这样的潮流下,构建以中文为核心的超大规模预训练模型及生态势在必行。就在今年 3 月,中国 AI 学界迎来了第一个超大规模预训练模型「悟道」。「悟道」由智源研究院牵头,汇聚清华、北大、人大、中科院等高校院所以及诸多企业的 100 余位 AI 领域专家共同研发,从基础性能、有效使用到预训练模型扩展,提出一系列创新解决方法,取得了多项国际领先的 AI 技术突破和多个世界第一。

  如今,「悟道 2.0」更进一步:不仅在预训练模型架构、微调算法、高效预训练框架方面均实现了原始理论创新,在世界公认的多个 AI Benchmark 榜单上,该模型还取得了多项任务能力的领先地位。

  「悟道 2.0」的算法基石是「FastMoE」。在攻关过程中,「悟道」团队开创了 FastMoE 技术,打破了 MoE 本身所存在的限制。作为首个支持 PyTorch 框架的 MoE 系统,FastMoE 具备简单易用、灵活、?性能的优势,并支持大规模并?训练。

  FastMoE 论文地址:https://arxiv.org/abs/2103.13262FastMoE 项目地址:https://github.com/laekov/fastmoe

  新一代 FastMoE 支持 Switch、GShard 等复杂均衡策略,?持不同专家、不同模型,?前已基于阿? PAI 平台探索在?付宝智能化服务体系中的应?,也在国产的神威众核超算平台成功部署。值得关注的是,这个世界最大的万亿级别模型,是完全基于国产超算平台打造的。

  精准方面,「悟道 2.0」也取得了不菲的成绩,在 ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCO 等项目都取得了突破,获得了 9 项任务上的 SOTA。

  这些成绩的背后,是悟道团队积累的多项技术创新。以文本生成图像框架「CogView」为例,它融合了 VQ-VAE 和 Transformer,在 MSCOCO FID 指标上优于 DALL·E 等网络,成为 DALL·E 之后绝无仅有的通用领域? - 图模型。

  CogView 论文地址: https://arxiv.org/abs/2105.13290CogView 项目地址: https://github.com/THUDM/CogView

  同时,第二代文澜正式对标 OPEN AI 的 CLIP,提出了一个双塔模型,在多语言上也取得重大进展。

  最后,悟道团队提出了一个新型的算法「Inverse Prompting」,该模型可在生成图片、文字或其他相关内容时做反向校验,使得生成结果非常高清且具有很强的逻辑性,避免过于发散。

  Inverse Prompting 论文地址:https://arxiv.org/abs/2103.10685Inverse Prompting 论文地址:https://github.com/THUDM/InversePrompting

  不仅参数规模世界最大,在多项算法突破之外,「高效易用」是「悟道 2.0」的另一张标签。

  大规模预训练模型的参数规模通常远超传统的专用人工智能模型,在算力资源、训练时间等方面消耗巨大。为了提升产业普适性和易用性,悟道团队搭建了全链路高效预训练框架「CPM-2」,使得预训练效率大幅提升。

  CPM-2 项目地址:https://github.com/TsinghuaAI/CPM-Generate

  具体而言,CPM-2 有几大优势:高效编码:研发了最高效、最抗噪的中文预训练语言模型编码,解决生僻字等问题高效模型:构建了世界首个纯非欧空间模型,只需要一半的参数量即可达到近似欧式模型的效果;高效训练:世界首创大规模预训练模型融合框架形成高效训练新模式,训练时间缩短 27.3%,速度提升 37.5%;高效微调:世界首创多类别 Prompt 微调,只需训练 0.001% 参数即可实现下游任务适配;高效推理:世界首创低资源大模型推理系统,单机单卡 GPU 即可以进行千亿参数规模的模型推理。

  企业、研究者、开发者拿到这个框架以后,可以进行快速部署并应用。框架内整合了 50TB 的文本数据,包括词表、模型,也训练了核心的模型。框架在七项能力上达到整体最优,包括识记、阅读、分类、计算、话语、生成、概括。

  WuDaoCorpora2.0

  与「悟道 1.0」同时问世的全球最大中文语料库 WuDaoCorpora1.0,也在三个月内完成了强化升级。加入多模态和对话两大全新元素后,2021 北京智源大会上,WuDaoCorpora2.0 版本正式发布。

  WuDaoCorpora2.0 由全球最大的纯文本数据集「WDC-Text」、全球最大的多模态数据集「WDC-ImageCaption」和全球最大的中文对话数据集「WDC-Dialogue」三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展。

  悟道文本数据集(WDC-Text)

  今年 3 月,北京智源人工智能研究院发布了数据规模达 2TB 的全球最大中文语料库 WuDaoCorpora1.0,填补了世界范围内高质量超大规模中文语料库的空白。

  在 1.0 版本的 2TB 数据基础上,2.0 版本的悟道文本数据集规模扩大了 50%,数据总量达到 3TB,远超 GPT-3 使用的英文数据集规模。除了数据规模大的特点之外,「WDC-Text」同时延续了质量高、标签全的特征。

  「WDC-Text」延续了 WuDaoCorpora1.0 使用的 20 种以上严格清洗规则,从超过 100TB 原始网页数据得出高质量数据集。同时,2.0 版本持续关注了隐私数据信息的去除,从源头上避免了 GPT-3 存在的隐私泄露风险。

  相比于 WuDaoCorpora1.0,「WDC-Text」采用更细致的数据标签种类和更精准的打标模型,为数据集添加了包含教育、科技等 50 多个行业的数据标签,可以支持特定领域的预训练模型训练。

  悟道图文数据集(WDC-ImageCaption)

  为了支撑推动跨模态预训练模型的研发工作,悟道团队构建了全球最大的图文多模态数据集。「WDC-ImageCaption」数据集包含 6.3 亿图文对,数据总量约 90TB,规模为全球最大。其中 6 亿为图文相关数据,3000 万是对图片内容的具体描述。

  由于中西方存在的文化差异,跨模态任务模型常常存在数据偏置问题,即使用中文描述西方文化场景时,模型往往不能取得理想效果。WuDaoCorpora2.0 的多模态数据集注重融合中西方文化特征,可以帮助模型解决文化壁垒带来的数据偏置问题。

  悟道对话数据集(WDC-Dialogue):

  此外,智源研究院还与清华大学交互式人工智能实验室(CoAI)合作构建了全球最大的中文对话数据集「WDC-Dialogue」,该数据集包含 181GB 高质量中文对话数据,对话总数达到 1.4B。

  由于日常对话存在口语化、非正式等特征,构建对话数据集需要严格把控数据质量。在悟道对话数据集建设过程中,团队采用了高效、严格的清洗规则,使清洗后的对话数据具有很强的相关性和多样性,成功从 9TB 原始数据中清洗得到 180G 高质量对话数据。

  悟道对话数据集面向中文开放领域对话,不受特定场景限制,能够支撑聊天机器人、智能助手、虚拟亲友等热门交互式下游应用研发,具有极高的应用价值和广阔的应用前景。

  为了促进数据建设成果的共享,WuDaoCorpora2.0 将在智源数据平台进行部分开放,同时也等待更多 AI 研究者的加入。

  Bengio、朱民、鄂维南等 200 余位顶尖 AI 学者汇聚

  「悟道 2.0」发布之外,大会邀请到了 200 余位国内外人工智能领域的顶尖专家参会,包括图灵奖得主 Yoshua Bengio、David Patterson,2017 年欧洲大脑奖得主、世界著名神经科学家 Peter Dayan,加州大学伯克利分校人工智能统计中心创始人、人工智能标准教科书《人工智能:一种现代方法》作者 Stuart Russell,自动驾驶之父 Sebastian Thrun,计算可持续性领域开创者 Carla Gomes 等,紧密围绕当前人工智能学术领域的前沿问题以及产业落地过程中的诸多挑战展开深入研讨。

  大会首日上午,2018 年图灵奖得主 Yoshua Bengio、清华大学国家金融研究院院长朱民博士和中国科学院院士、北京大学教授鄂维南为大家带来了精彩的分享,主题包括深度学习系统 2.0 下机器学习的鲁棒性泛化研究、数据如何从资源转化为资产以及数学等传统学科与机器学习的融合。

  Yoshua Bengio:深度学习系统 2.0 下,机器学习如何实现鲁棒性泛化

  2018 年图灵奖得主、加拿大蒙特利尔大学教授 Yoshua Bengio 带来了主题为《深度学习系统 2.0 下的机器学习鲁棒性泛化(toward robust generalization in machine learning with system 2 deep learning)》的线上演讲。

  Bengio 首先概述了现有 ML 研究的不足,比如学习理论(learning theory)仅能够处理相同分布下的泛化、模型可以学习但无法很好地泛化至修改后的分布。接着,他分析了深度学习系统 1.0 和系统 2.0 认知的异同,其中前者主要特征是无意识,后者主要表现为连续性和有意识。此外,Bengio 还提到,现有的工业强度的机器学习由于性能不佳面临着鲁棒性问题。

  面对这些问题,Bengio 从以下几个方面进行了详细的解读:

  人类对归纳偏置的启发:隐性知识 VS 可用言辞表达的知识;抽象变量之间的稀疏依赖和抽象变量发挥因果作用;可重用因果机制;系统级泛化;离散、象征和抽象概念;稀疏的局部化干预。

  最后,Bengio 分享了几项发表和提交至 NeurIPS、ICLR 等学术会议上的研究,进一步解读了发现大规模因果图、有意识推理的核心组件 - 注意力、自然生成系统以及离散值神经通信等主题。

  朱民:经济学家眼中的数据资产时代

  清华大学国家金融研究院院长朱民博士也带来了线上演讲,他的演讲主题为《数字资产的时代》,从经济学的视角深入剖析了数据如何从资源向资产转变。

  朱民博士表示:「随着大数据和人工智能的快速发展,我们正离开信息时代进入智能时代。」智能时代的重要特征是数据先行,并且是一个以数据为基础的机器认知和人的认知共存的时代。在这一过程中,从数据到服务社区的路径变得更短以及更高效。与此同时,中国以及全球范围内数据规模快速扩大,数据流动带来了巨大的经济效益和财富。数据显示,2005 年至 2014 年,跨境数据流动使全球国内生产总值增长了约 3%,欧盟 8% 的 GDP 更是从个人数据中产生。

  此外,数据自身具备的独特经济学特征,如虚拟、零转移成本、重复使用等,使其在经济学意义上有很大的想象空间。特别是数据本身没有价值,只有在使用时才产生价值。这些都要求我们思考如何将数据资产化,并且在这一过程中还需要考虑隐私、合规和安全等其他因素。

  其实,数据资产的概念是由信息资源和数据资源逐步演变而来的,上世纪 70 年代出现信息资源,90 年代兴起数据资源。进入 21 世纪特别是近几年,由于大数据技术的兴起和繁荣发展,数据作为一种资产的概念越来越明确。只有将数据从资源转变为资产,我们这个智能社会才能得以更有效地运转。

  数据资产具备哪些特征呢?根据朱民博士的介绍,数据资产不仅资源丰富、更新频繁和品种多样,而且有准公共物品的特征、外部性和自然增值性。此外,数据资产还具有多维性、无限共享性和更高的集合使用价值。最后一个特征至关重要,因为大数据、算法和科技要求数据要有足够的规模、维度和密度,而要支撑这三个基本概念,数据必须实现资产化。

  但应看到,要想顺利地使数据变成资产需要克服一系列挑战,主要包含以下四个方面:数据产权模糊、隐私与安全问题突出、数据定价与估值困难以及数据开放与流通困难。数据不流通就会变成孤岛,也就无法达到数据的集聚与密度,效率就会大打折扣。针对这四个方面的挑战,朱民博士一一列举了相应的技术和管理层面的解决方案。

  此外,数据资产商业模式也面临一些挑战,现阶段分为数据平台交易模式、数据银行模式和数据信托模式,并且大多数属于在第一种。基于此,数据若想从资源走向资产,需要构建安全、可交易和有效率的数据资产生态。更具体来讲,科技层面需要改进计算方案,市场层面需要提出激励机制,政府层面需要制定监管和和法律框架,国际层面需要完善全球治理机制。

  最后,朱民博士认为:「中国正在走向全面走向数字经济,数据将成为最关键的基础和第一推动力。」在数据资产化的过程中,中国要想走在世界前列,政府必须发挥其至关重要的作用。

  鄂维南:人脸识别等 ML 应用的本质是解决高维数学问题

  中国科学院院士、北京大学教授鄂维南为大家带来了《科学与智能(AI for Science)》的主题演讲,介绍了机器学习在生物、化学、材料、工程等传统学科中的应用以及发展前景。

  科学研究具有两大基本目的,其一是寻求基本规律,如行星运动三大规律和量子力学基本方程;其二是解决实际问题,如工程学科以及制造行业、材料学科等。科学的主要模型都是来自于物理学,比如牛顿方程、空气动力学,弹性力学、电磁场理论等等。薛定谔方程是量子力学的基本方程,科学计算的第一任务就是要解这类方程。虽然有了这些基本原理,但却无法利用它们解决实际的问题,所以碰到实际问题只能采取简化和经验来解决。

  直到上世纪 50 年代,得益于电子计算机的出现,科学家们发明了差分方法、有限元方法、谱方法等,人类历史上第一次实现了直接用基本原理解决实际问题。

  但应看到,依然有很多问题没有解决,如材料设计、分子与药物设计等。这些问题共同的根源在于维数灾难,内在变量太多,维数增加,计算量呈指数增长。与此同时,深度学习领域的图像识别、人脸照片生成和 AlphaGo 都可以解读成解决高维的数学问题。具体来讲,图像识别是解决高维函数逼近,图像生成是高维概率密度,AlphaGo 是解超大空间高维 Bellman 方程。归根究底,深度学习对高维函数提供了有效的逼近方法。

  接着,鄂院士介绍了深度学习模型在高维控制问题分子动力学和空气动力学等领域的应用,强调了机器学习帮助构建有效、可靠和有效率物理模型的重要性。

  最后,他认为,传统的科研领域应该成为人工智能的主战场,包括化学、材料、电子工程、化学工程和机械工程等。数学的发展也面临着前所未有的机遇和挑战,更应该促进与其他学科尤其是机器学习等 AI 技术的融合。

  一张中国 AI 发展的学术名片

  过去十余年,人工智能正在成为第四次产业革命的关键基础设施,引领新一轮风潮。继基于数据的互联网时代、基于算力的云计算时代之后,人工智能的大模型时代正在到来。超大数据 + 超大算力 + 超大模型, 将如「电网」一般,成为变革性产业基础建设设施,与驱动信息产业应用发展的核心动力。

  自第一届北京智源大会举办以来,智源研究院始终关注内行真正认可的重大成果与真知灼见,希望打造一张北京乃至中国 AI 发展的学术名片。

  在大会开幕式上,智源研究院院长黄铁军对《2021 智源进展报告》进行了整体介绍。过去的一年,智源研究院在「创新研究」、「学术生态」、「产业发展」、「AI 治理」四个层面取得了多项突破性进展。

  「创新研究」

  关于「创新研究」,黄铁军表示,目前明确可行的人工智能技术路线有三条,核心任务分别是构建「信息模型」、「自主模型」、「生命模型」。

  第一条路径,基于深度学习、数据、算力的发展,过去十年间全球掀起了「大炼模型」的热潮,也催生了大批人工智能企业。和其他产业一样,热潮退去后,这一领域也将进入集约化的发展阶段:「炼大模型」。真正能够复制于各行各业的超大规模模型,在全世界范围内都是屈指可数的。

  基于这一点,智源研究院在今年 3 月发布了我国首个超大规模智能模型「悟道 1.0」,包括文源、文澜、文汇、文溯在内的系列模型。如今,「悟道 2.0」也正式发布,已在多项国际评测方面得到了世界第一,并开放了全球最大的中文语料数据集「WuDaoCorpora2.0」。它提出了自然语言评测的新标准「智源指数」,包含 6 种主要语言、30 余项主流任务和相关数据集,形成了超大规模的权威考卷。

  第二条路径,生命模型的发展有赖于脑科学特别是神经科学的进步,首先要在大算力的支持下对大脑进行高精度的仿真模拟。生命模型是未来脑科学和通用人工智能研究的关键,如何训练和测试超大规模的生命模型是探索人类自身、解密智能成因的圣杯。

  针对生命模型,智源研究院成立了生命模拟研究中心,开发高精度生命模拟仿真平台「天演」,构建和探索感觉、知觉、记忆等智能模型,为新一代人工智能发展提供源泉。

  第三条路径面临的挑战最大,构建地球乃至宇宙的模型,培育新一代自主人工智能,应对各类自然挑战。

  智源研究院已经启动了「天道」物理模型的建设步伐,从基本粒子模型开始建立分子模拟研究中心,突破了分子模拟「快」与「准」难以兼顾的平衡,推动人工智能驱动的新一代分子动力训练模拟迈上新的台阶。

  成立两年多以来,智源研究院已经确定将智能模型作为源头创新的核心任务,在机构设置、资源保障和机制体制创新方面进行了系统部署,全力构建信息模型、生命模型和物理模型「智能三剑客」。这三部分的创新研究进展,也都将在本次智源大会的日程中陆续公布。

  「学术生态」

  智源研究院自成立之初,就开始遴选智源学者,并积极建设智源社区,积极打造全球人工智能学术和技术创新的生态。

  「智源学者计划」主要支持优秀的领军科学家开展人工智能领域的重大方向的基础前沿研究,支持青年科学开展开放性、探索性研究。

  目前该计划已完成遴选支持智源学者 94 人,包含智源首席科学家、智源研究员、智源青年科学家、智源特聘研究员、智源新星、智源探索者六个层次,研究方向包括人工智能的数理基础、机器学习、智能信息检索与挖掘、智能体系架构与芯片、自然语言处理、人工智能的认知神经基础、自由探索六个方向。过去一年中,在智源研究院的支持下,多位智源学者取得了重大成就,斩获多个国际大奖,研究成果发表在《Nature》等国际顶尖期刊。

  在「智源社区」建设上,智源研究院和国际 AI 技术生态深入融合,今年将紧密联系 3000 名以上的人工智能顶尖学者,汇聚 10 万名以上的海内外 AI 科研人员,打造连接世界 AI 学术和产业资源的平台。

  此外,智源研究院特地发起了学术组织「青源会」,为海内外 AI 研究人员和技术人员建立宽松活跃的学术交流平台,旨在促进学科交叉与青年科学家之间的合作,提出具备引领作用的原创思想,开创新的科学前沿。

  在 6 月 2 日上午的「青源学术年会」上,「青源会」成立仪式将正式披露其发展目标和未来的规划。

  「产业发展」

  当前,人工智能已经成为经济发展的新引擎,智源研究院始终致力于加快推进 AI 原创成果落地和深度应用,孵化 AI 创新企业,推动人工智能产业发展。

  今年,智源研究院还将推出「源创计划(BAAI Accelerator)」,为 AI 创业团队开放大模型、数据集等生态资源,为来自学术界的 AI 科学家、创业团队对接应用场景,同时为来自产业界的创业团队对接业界领先的 AI 技术,加快形成可落地的产品,另外还将通过创业基金等方式加快孵化一批具有国际领先技术能力的 AI 创新企业。

  在 6 月 3 日上午的「AI 创业」论坛上,智源研究院理事长张宏江将正式发布「源创计划」。

  人工智能伦理研究与治理

  当前,AI 伦理和治理问题已经成为全球的共识,国际社会正在探索建立广泛认可的准则,推进敏捷灵活的 AI 治理。

  智源研究院在 2019 年成立了人工智能伦理与可持续发展研究中心,率先在国内开展 AI 伦理安全研究,并积极参加国际 AI 治理。

  在整体议程中,接下来,大会还将围绕国际人工智能学术前沿和产业热点召开多场专题论坛,议题分别为:「预训练模型」、「机器学习」、「群体智能」、「人工智能的数理基础」、「智能体系架构与芯片」、「精准智能」、「智能信息检索与挖掘」、「产业画像和精准治理」、「青源学术年会」、「认知神经基础」、「科学人工智能」、「人工智能伦理与可持续发展」、「认知智能」、「AI 健康医疗」、「AI 创业」、「智能制造」、「AI 交通」、「自然语言处理」、「强化学习与决策智能」、「AI 制药」、「AI 系统」、「视觉大模型」、「AI 开放与共享」、「AI 科技女性」等。

  「人工智能的大统一理论」、「GPT-n 需要什么样的智能计算系统」、「智能制造的未来方向与技术壁垒」、「AI 系统的发展趋势与挑战」、「AI 如何赋能生命健康与生物医药」当下 AI 领域最核心的学术及应用问题也将在专题论坛中得到解答。