ChatGPT 成功背后的网络功臣,全栈智能网络技术揭秘
智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西 4 月 17 日报道,随着大语言模型研究日渐火热,庞大的参数规模带动计算量一路飙涨,对网络带宽提出更高要求。加速大语言模型训练和推理背后的网络基础设施也日益受到关注。
突破网络通信限制,不仅有助于提高大模型计算性能和效率,也有助于降低能耗和电力成本。近日,NVIDIA 网络技术专家崔岩、NVIDIA 网络市场总监孟庆与智东西等媒体进行深入交流,分享其全栈智能网络技术如何为大模型提供支撑。
孟庆谈道,在 AI 快速发展的过程中,后进入市场的参与者如果想要赶超已进入市场的参与者,有两种方式,一是按照已成功的范例来投入资源,二是投入同样的资源但要跑得更快,跑得更快必然需要提高效率,而提高效率就需要 DPU。
OpenAI 便是采用 DPU 节约时间成本的一大例证。微软前段时间发布的博客文章明确写道,OpenAI 采用的硬件包括 NVIDIA BlueField-2 DPU 及其智能网卡 InfiniBand 200G 网络。这个被实践检验过的样本已经被很多公司参考。
一、用于两套高性能网络平台,BlueField-3 DPU 今年开始大规模投放
面向全新应用,NVIDIA 提供两套高性能网络平台,分别是 Quantum-2 InfiniBand 网络平台和 Spectrum-4 以太网网络平台,都是端到端 400G 高带宽高性能网络架构。BlueField-3 DPU 是这两大网络平台里的共有组件,同时用到 InfiniBand 网络和以太网网络。
在前不久举行的 NVIDIA GTC 大会上,NVIDIA 宣布 BlueField-3 DPU 全面投产。NVIDIA 从今年开始向市场大规模投放 BlueField-3 DPU 产品。
NVIDIA BlueField-3 DPU 会有以下的突破:
1、400G 连接:2 倍网络带宽、2 倍网络管道线(Pipeline)、4 倍主机带宽。
2、可编程计算:4 倍 Arm 计算能力、5 倍内存带宽、新增数据路径加速器。
3、零信任安全:4 倍 IPsec 加密加速、2 倍 TLS 加密加速、新增 MACsec 加密加速及平台认证。
4、弹性存储:2 倍存储 IO 性能(IOPs)、2 倍存储加密性能、新增 NVMe over TCP 加速。
现在的数据存储以分布式存储为主。BlueField-3 DPU 可以通过虚拟存储设备的方式,让主机侧感知不到它的数据是来自于本地、还是远程,并为主机侧提供弹性存储资源。而且,数据的存储也是加密的,能够满足客户不同形态的存储类型同时保证数据的安全性。
二、四大优势,四大用例
NVIDIA BlueField-3 DPU 有四个方面的优势:
1、加速性能:硬件设计架构能够满足软件定义网络、存储、安全上的卸载,提供更快、更高的性能,运行最苛刻的工作负载。
2、云规模效率:把 BlueField-3 DPU 应用到架构里,能够为业务应用释放 x86 的核心,让 CPU 更多去承载业务应用,而不是再去做这些基础设施的操作,从而实现前所未有的规模和更高的效率水平。
3、强大的零信任安全:在不影响性能的情况下,确保全面的数据中心安全。比如在云环境里有多租户同时共享一个数据中心的基础设施,它能够满足租户之间的安全性,实现有效隔离。它也可以把主机分为业务应用域和网络基础设施域,如果应用业务域遭黑客攻击,不会通过基础设施域在数据中心内部的进行横向攻击。
4、完全可编程的基础设施:NVIDIA DOCA 软件框架提供一致的开发和运行应用程序,并保持最高性能,使得开发者或企业具备开发能力,可基于 BlueField-3 DPU 做自己基础设施方面的应用程序或提供相应的服务。
以下四个用例可以辅助理解 BlueField-3 DPU 的这些优势。
1、加速云计算。未来 AI 模型训练和推理的大部分算力会依托于云计算,BlueField-3 DPU 能够做相应云计算的基础设施的支撑。BlueField-3 DPU 可支持 4096 个虚拟实例,是上一代每个节点虚拟实例数量的 4-8 倍。这带来的好处是可以更多承载业务应用,因为每个虚机都可以单独租用。对于云计算的服务商来讲,这也是额外的收入,增加了投资回报。
2、安全云计算。在安全多租户云环境提供隔离数据中心控制平面,租户工作负载在主机上运行,基础设施工作负载在 BlueField-3 DPU 上运行,实现租户之间的隔离以及业务应用域和基础设施域之间的隔离,并提供了零信任安全部署的平台,所以更好保证整个数据中心的安全性。
3、加速企业计算。NVIDIA 与 VMware 合作,目前会在戴尔的 PowerEdge 服务器上采用 BlueField-3 DPU 来运行 VMware vSphere 8,每秒最多可增加 50% 的 Redis 键值存储事物处理,使得 VMware 网络实现零 CPU 核心占用。
4、可持续云计算。数据中心电能消耗及需求都在不的增长,怎么来让云计算保持可持续性?应用 BlueField-3 DPU 后,它本身的性能很强,能够提升服务器主机整体的性能;把所有基础设施工作负载卸载到 BlueField-3 DPU 上,释放出来的 CPU 算力资源可以用于业务应用,相当于在服务器没增加的情况下,能够支撑更多的业务,或者在做同一个业务时所需的服务器数量更少。
除了释放 CPU 核心以外,BlueField-3 DPU 还可以节省整个服务器电能的消耗。一个服务器在空载状态、没有加任何负载的情况下,耗电量是 334 瓦,如果在 CPU 上运行 IPSec 工作负载,耗电量会大幅提高至 728 瓦。如果把 IPSec 工作负载卸载到 DPU,不用 CPU 来做,则只需 481 瓦。
所以综合来看,BlueField-3 DPU 能够节省服务器的采购数量,减少数据中心的耗电,并减少配电、冷却、机柜空间等成本,对数据中心整体硬性限制有一些本质上的改善。
三、DOCA:为 DPU 硬件迭代提供软件兼容性
没有软件的芯片就像昂贵的沙子,毫无用处。NVIDIA DOCA 是用于 BlueField DPU 的软件开发框架,全称是 Data-Center-infrastructure-On-A-Chip Architecture。
DOCA 之于 DPU 正如 CUDA 之于 GPU。DOCA 软件框架可以兼容以前和之后的 BlueField 系列 DPU。DOCA 提供卸载、加速和隔离基础设施操作,支持超大规模、企业、超级计算和超融合基础设施。一些大型云服务商、做超融合计算的公司都在学习和使用 DOCA 编程。
DOCA 是非常成体系的,有SDK和RUNTIME 运行时两部分。
SDK 主要服务于开发者,提供库和驱动、编排和遥测 API、开发工具,包括在 x86 笔记本电脑上模拟 DPU 构建在 Arm 的开发环境,还提供开发者文档和参考应用程序等,可通过 NVIDIA SDK Manager 或手动方式进行安装。
运行时(RUNTIME)服务于管理员角色,有基本的 DOCA 服务、库和驱动、用户指南、应用程序样例等,有一些工具可以帮助 IT 管理员或运维人员部署,安装方法包括 x86/Arm DOCA 运行时 repo 安装文件、BFB 映像部署、Linux 包管理器。
NVIDIA GPU 云(NGC)可以简化部署,支持一键式部署到服务器中,而且通过虚拟化、迁移等手段可在 x86、Arm 等不同硬件环境中进行迁移。
DOCA 驱动与库提供不同的 API 和不同层级开发接口,来满足不同需求。最底层提供的是内核模式驱动,非常资深的开发者可以在内核模式驱动上 " 搭积木建房子 ";用户模型驱动会提供基础功能,允许开发者去调用和编写程序。
例如,国内知名云计算服务商 UCloud(优刻得)采用 DPU 应用于其裸金属服务器租用,它可以将资源分配的软件跑在 DPU 上,这样客户能够 100% 租这台机器的计算资源、内存资源,没有隐形消耗(数据中心税)。
DOCA 2.0 伴随着 BlueField-3 DPU 正式发布。NVIDIA BlueField-3 DPU 提供了三种异构的可编程引擎,包括 Arm、加速可编程管道线和数据路径加速器(DPA),用 DOCA 的软件框架把它统一起来。因此开发者不用在意底层异构硬件的如何实现。
比如 BlueField-2 DPU 上的智能网卡芯片用的是 ConnectX-6,而 BlueField-3 DPU 用的是 ConnectX-7。在 ConnectX-7 上实现的程序编程,可以无缝直接应用在 BlueField-3 DPU 上,调用同样的核心代码而无需更改。
此外,DOCA 2.0 新增了对数据路径加速器(DPA)的编程功能,DPA 是采用 RISC-V 架构的处理器,主要用来加速网络流量和处理数据包。
总得来看,DOCA 2.0 有几个新的重要功能:
1、统一的软件框架。同时支持上一代 DPU 和最新的 BlueField-3 DPU,新增 DPA 等功能。
2、软件生态变得丰富。很多软硬件合作伙伴都兼容并支持新一代 DPU,包括 Oracle OCI 的云基础设施、微软 Azure 等。
DPA 有几大特性:1、BlueField-3 DPU 中引入了 DPA 计算子系统;2、DPA 针对设备仿真、IO 密集型应用、高插入率、网络流处理、客户协议、集体和 DMA 操作进行了优化;3、通过 DOCA FlexIO SDK、DOCA DPA SDK、支持这些 SDK 的工具链和示例及宣传资料等方式实现客户可编程性;4、提供利用 DPA 开发的交钥匙应用程序。
DOCA 2.0 FLOW 库是对开发者非常有用的特性,可以把对数据包处理的方式抽象出来,之后调用时,不管是做软件定义网络、网关还是做几百万次查询插入式操作,都非常有意义。
库就像是一个字典,调用时不用管具体操作是怎么完成的,对开发者来说,用简单方式就能实现这么多的功能,所以它可以快速写代码、部署,缩短业务上线时间。其目标网络应用有路由器、下一代防火器(NGFW)、负载均衡器(Load Balancer)、用户平面功能(UPF)等,都是基于 NVIDIA 提供的 DOCA FLOW 通道。
Regex 是处理网络流量的重要算法,是数学里正则表达式的计算。NVIDIA 在 BlueField-3 DPU 中改进了 Regex 硬件引擎。通过增强综合性能,新增的双向搜索能力可以让它更快找到匹配项,从而提高规则性能,并能够编译比 BF2 目前支持的更多规则。这对于网络海量并发时非常重要。
DOCA 2.0 还为 BlueField-3 DPU 带来了新的 SNAP 基础设施 SNAP v4。很多 AI 企业有上百 TB 的数据集,做远程调用会非常看重这个核心。用 DPU 卸载 SNAP v4 的功能可以释放带宽和调用时间,大幅提升效率。NVIDIA 之后会将 SNAP v4 放在公共 NGC 上发布,也是一键部署。
DOCA 2.0 BlueMan 是一款易部署的遥测可视化工具。管理员可以通过它提供的图形界面去查看自己所有的主机情况,包括健康、性能、网络流量是否存在问题以及风险预警等。
四、56% 的 DOCA 开发者来自中国社区
目前 NVIDIA DOCA 开发者社区提供相关 DOCA API 文档及资源,从而指导开发者怎么基于 BlueField 系列 DPU 进行部署和编程。
其全球开发者已经超过 4700 人。DOCA 中国社区是 2021 年 7 月份发布的,2021 年末时中国占了全球开发者 42%,到 2023 年 1 月已经有 56% 的开发者来自中国社区。这些来自中国的开发者,有的来自互联网大厂、有的来自创业公司,也有的来自高校。
NVIDIA 在推进 DOCA 中国社区发展时考虑到一个问题,基于 BlueField 系列 DPU 的 DOCA 软件开发与基于 GPU 的 CUDA 开发不一样,开发者可以采用笔记本电脑或台式机就可以搭建 GPU 开发环境,但开发者自己搭建 DPU 开发环境是不太容易的事情。
为此,NVIDIA 授权设立了 DPU & DOCA 卓越中心,与三家合作伙伴(丽台、信弘、联泰集群)一起,向中国开发者提供免费的 DOCA 开发环境。
DOCA 开发者需要成功注册 NVIDIA DOCA 开发者体验计划,才能申请免费开发环境。申请人需要提前 48 小时以个人名义通过向 NVIDIA 授权合作伙伴发送申请,提交申请的详细信息,且信息准确无误,获得授权合作伙伴审核批准后可获得 2 小时 -6 小时免费的 DOCA 开发环境。
结语:加速大模型普及需要更好的网络基础设施
无论是愈发热门的大模型,还是已经走向落地普及的传统中小型模型,都需要更好的网络基础设施来突破吞吐量和性能瓶颈。
就像人们在日常生活中永远不会嫌网络太快,数据中心的效率提升也永无止境。将数据效率提升,就意味着租用面积变少、动用的空调等设备变少、消耗的电力变少,或者用同样电能时执行计算任务的效率大大提高。
如 NVIDIA 创始人兼 CEO 黄仁勋所言,AI 正迎来 "iPhone 时刻 ",在更强大的计算基础设施与网络基础设施配合下,生成式 AI 能力将逐渐深入各行各业,慢慢改变很多工作、生产和生活的方式。