“大模型”制造算力饥渴,腾讯“摆摊买水”

  来源:AI 星球;文 / 邵延港

  ChatGPT 引起的热度从去年底持续到现在,想要继续讲 AI 故事的参与者,被迫加入大模型(LLM)混战,国内企业的大模型发布会的排期快把近两个月的日期占满了。

  目前,百度已经发布文心一言、阿里发布了通义千问,商汤也于日前发布了日日新,360、网易、科大讯飞等企业的大模型产品都已经提上日程。腾讯此前披露的在研项目 " 混元 " 大模型近期也备受关注。

  混元大模型尚未正式上线,但腾讯却在大模型的基础设施加快布局。4 月 14 日,腾讯面向大模型训练,发布 " 超强算力集群 ",要助力企业云上训练 AI 大模型,解决中小企业和创业公司的算力压力。

  " 挣大模型的钱 ",腾讯不是第一家,阿里、亚马逊、英伟达等企业已经在软硬件方面展示了服务项目。在这场大模型热潮中,腾讯也想做一个 " 卖水人 ",不过在算力支持的背后,或是一场大厂生态之战。

  算力需求紧张,腾讯可 4 天训完万亿规模大模型

  大模型依赖算法、算力和数据的综合支撑。一个人工智能大模型,通常得用数万亿个单词训练,参数量也 " 飙升 " 到了上万亿。

  据了解,在训练阶段,Open AI 发布的 ChatGPT 训练阶段总算力消耗约为 3640 PF-days,即 1PetaFLOP/s 效率跑 3640 天,需要 7~8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。此前,华为云的盘古大模型的预训练参数规模达到 2000 亿,阿里达摩院的 M6 模型参数达到 10 万亿。

  在众多国产大模型陆续上线后,算力消耗会指数级增长。用于大模型训练的芯片,其算力也有限,今年 4 月 5 日,Open AI 关闭了 ChatGPT Plus 的付费渠道,给出的理由就是需求量过大,仅发布几个月,OpenAI 就已经面临算力缺口。如今,密集上线的大模型也将面临着巨大的算力需求。

  大模型的算力依靠的是芯片,但遇到海量运算,单块芯片无力支撑,腾讯给出的方案是将成千上万台服务器,通过网络联结,组成大型的算力集群。

  据了解,腾讯新一代的算力集群集成了腾讯云自研的 TACO 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

  根据腾讯云公布信息,其新一代高性能计算集群采用最新一代星星海自研服务器,搭载英伟达 H800 GPU 基于自研网络、存储架构,带来 3.2T 超高互联带宽、TB 级吞吐能力和千万级的 IOPS,为企业用户提供高性能、高带宽、低延迟的智算能力支撑。

  腾讯云通过实测结果显示,新一代算力集群的整体性能比过去提升了 3 倍。腾讯云表示,在去年 10 月,腾讯完成首个万亿参数的混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。并且,腾讯混元大模型背后的训练框架 AngelPTM,也已通过腾讯云 TACO 提供服务。

  不仅是算力缺口的限制,算力成本也是创业公司和中小企业难以支撑的原因。据悉,腾讯升级算力集群所用的英伟达 H800 芯片售价接近 20 万元。

  在当前国产大模型热潮之下,腾讯向外界提供高性能计算集群,缓解算力压力,做创业公司和中小企业掘金大模型产业路上的 " 卖水人 "。只不过,腾讯并不是唯一一家卖水的,大厂已经先后入局。

  巨头陆续出手," 生态群 " 呼之欲出

  三天前,阿里云公开发布旗下大模型 " 通义千问 ", CEO 张勇在宣布将大模型与集团内部产品相结合之外,还布置有一条面向外部生态的路线。

  阿里云也看到了大模型爆发带来的算力问题,阿里云依靠自研芯片,降低算力成本,向外部企业提供普惠算力支持,也成为阿里云打造生态的方式之一。

  腾讯的做法也类似,其新一代集群集成了腾讯云自研的 TACO 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。腾讯也将基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,打造面向 AIGC 的高性能智算网络。

  此外,在 4 月 13 日,全球云计算巨头亚马逊也加入战局,而亚马逊主要是做 AI" 底座 ",为上层应用公司提供 AI 基础设施,即接入多家公司的基础模型,搭建 " 模型超市 ",让用户按需选择。在算力方面,亚马逊推出了基于自研 AI 芯片的两大人工智能计算 " 实例 "Amazon EC2 Trn1n 和 Amazon EC2 Inf2,分别用于大模型训练和推理。

  AI 芯片的巨头厂商英伟达,在近期发布会上发布了大模型专用 GPU,以及为中国市场特供的 H800 超大型 GPU 服务器,腾讯此次发布的高性能计算集群正是首次搭载该款芯片。

  大厂先后入局大模型的算力服务,背后也是一场生态竞争。在算力限制下,腾讯、阿里等巨头将慢慢融合其他垂直领域的 " 小模型 ",打造生态圈。