“大模型”制造算力饥渴，腾讯“摆摊买水”

时间：2023-04-23

　　来源：AI 星球；文 / 邵延港

　　ChatGPT 引起的热度从去年底持续到现在，想要继续讲 AI 故事的参与者，被迫加入大模型（LLM）混战，国内企业的大模型发布会的排期快把近两个月的日期占满了。

　　目前，百度已经发布文心一言、阿里发布了通义千问，商汤也于日前发布了日日新，360、网易、科大讯飞等企业的大模型产品都已经提上日程。腾讯此前披露的在研项目 " 混元 " 大模型近期也备受关注。

　　混元大模型尚未正式上线，但腾讯却在大模型的基础设施加快布局。4 月 14 日，腾讯面向大模型训练，发布 " 超强算力集群 "，要助力企业云上训练 AI 大模型，解决中小企业和创业公司的算力压力。

　　" 挣大模型的钱 "，腾讯不是第一家，阿里、亚马逊、英伟达等企业已经在软硬件方面展示了服务项目。在这场大模型热潮中，腾讯也想做一个 " 卖水人 "，不过在算力支持的背后，或是一场大厂生态之战。

　　算力需求紧张，腾讯可 4 天训完万亿规模大模型

　　大模型依赖算法、算力和数据的综合支撑。一个人工智能大模型，通常得用数万亿个单词训练，参数量也 " 飙升 " 到了上万亿。

　　据了解，在训练阶段，Open AI 发布的 ChatGPT 训练阶段总算力消耗约为 3640 PF-days，即 1PetaFLOP/s 效率跑 3640 天，需要 7~8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。此前，华为云的盘古大模型的预训练参数规模达到 2000 亿，阿里达摩院的 M6 模型参数达到 10 万亿。

　　在众多国产大模型陆续上线后，算力消耗会指数级增长。用于大模型训练的芯片，其算力也有限，今年 4 月 5 日，Open AI 关闭了 ChatGPT Plus 的付费渠道，给出的理由就是需求量过大，仅发布几个月，OpenAI 就已经面临算力缺口。如今，密集上线的大模型也将面临着巨大的算力需求。

　　大模型的算力依靠的是芯片，但遇到海量运算，单块芯片无力支撑，腾讯给出的方案是将成千上万台服务器，通过网络联结，组成大型的算力集群。

　　据了解，腾讯新一代的算力集群集成了腾讯云自研的 TACO 训练加速引擎，对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。

　　根据腾讯云公布信息，其新一代高性能计算集群采用最新一代星星海自研服务器，搭载英伟达 H800 GPU 基于自研网络、存储架构，带来 3.2T 超高互联带宽、TB 级吞吐能力和千万级的 IOPS，为企业用户提供高性能、高带宽、低延迟的智算能力支撑。

　　腾讯云通过实测结果显示，新一代算力集群的整体性能比过去提升了 3 倍。腾讯云表示，在去年 10 月，腾讯完成首个万亿参数的混元 NLP 大模型训练。在同等数据集下，将训练时间由 50 天缩短到 11 天。如果基于新一代集群，训练时间将进一步缩短至 4 天。并且，腾讯混元大模型背后的训练框架 AngelPTM，也已通过腾讯云 TACO 提供服务。

　　不仅是算力缺口的限制，算力成本也是创业公司和中小企业难以支撑的原因。据悉，腾讯升级算力集群所用的英伟达 H800 芯片售价接近 20 万元。

　　在当前国产大模型热潮之下，腾讯向外界提供高性能计算集群，缓解算力压力，做创业公司和中小企业掘金大模型产业路上的 " 卖水人 "。只不过，腾讯并不是唯一一家卖水的，大厂已经先后入局。

　　巨头陆续出手，" 生态群 " 呼之欲出

　　三天前，阿里云公开发布旗下大模型 " 通义千问 "， CEO 张勇在宣布将大模型与集团内部产品相结合之外，还布置有一条面向外部生态的路线。

　　阿里云也看到了大模型爆发带来的算力问题，阿里云依靠自研芯片，降低算力成本，向外部企业提供普惠算力支持，也成为阿里云打造生态的方式之一。

　　腾讯的做法也类似，其新一代集群集成了腾讯云自研的 TACO 训练加速引擎，对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。腾讯也将基于自研芯片、星星海自研服务器和分布式云操作系统遨驰，打造面向 AIGC 的高性能智算网络。

　　此外，在 4 月 13 日，全球云计算巨头亚马逊也加入战局，而亚马逊主要是做 AI" 底座 "，为上层应用公司提供 AI 基础设施，即接入多家公司的基础模型，搭建 " 模型超市 "，让用户按需选择。在算力方面，亚马逊推出了基于自研 AI 芯片的两大人工智能计算 " 实例 "Amazon EC2 Trn1n 和 Amazon EC2 Inf2，分别用于大模型训练和推理。

　　AI 芯片的巨头厂商英伟达，在近期发布会上发布了大模型专用 GPU，以及为中国市场特供的 H800 超大型 GPU 服务器，腾讯此次发布的高性能计算集群正是首次搭载该款芯片。

　　大厂先后入局大模型的算力服务，背后也是一场生态竞争。在算力限制下，腾讯、阿里等巨头将慢慢融合其他垂直领域的 " 小模型 "，打造生态圈。