榨干GPU,AI存储进入200G IB时代

  

  

  AI存储,百亿空间

  IDC预测,全球AI(人工智能)市场支出将在2021年达到850亿美元,并在2025年增至2,000亿美元,五年复合增长率(CAGR)约为24.5%。2025年,全球约8%的AI相关支出将来自于中国市场,市场规模在全球九个区域中位列第三。

  “十四五”规划纲要将“新一代人工智能”作为议题重点提及,加上新基建、数字经济在内的持续利好政策的推动,中国AI市场将稳步发展。根据最新预测,2021年,中国在AI市场的支出规模将达到82亿美元。2021-2025的五年预测期内,中国市场AI相关支出总量将以22%左右的CAGR增长,有望在2025年超过160亿美元。

  

  人工智能市场的高速发展,也带动了AI存储的发展。根据IDC,从2018年开始,全球AI存储的年复合增长率高达37%,到2022年,AI存储的市场规模将达100亿美金。

  

  也就是说,今年AI存储的市场规模就将进入百亿美金俱乐部了。

  

  

  AI存储, IB领跑

  为什么有AI存储这个分类,因为AI场景比较特殊,它和GPU关系密切。由于GPU价格昂贵,AI存储必须足够快,这样才能充分利用GPU的能力,榨干GPU的带宽。

  由计算密集型机器学习 (ML) 和深度神经网络 (DNN) 组成的 AI 工作负载在不同阶段具有不同的输入/输出 (IO) 特征,这要求 I&O 负责人部署互补型存储架构。AI 和 ML 工作负载的独特需求会让 I&O 负责人重新评估其存储选择方法,并采用新的技术和部署方法。

  

  从上表我们可以看到,AI工作流程一般分5个阶段:采集、数据准备、训练、推理、归档,不同阶段对存储的要求不同。

  ML和DNN工作负载对存储架构有重大影响。由于GPU等更常用的专用处理器(特别是在神经网络的训练阶段)的并行处理能力和绝对密度,从基于磁盘的系统中读取训练数据是最常见的瓶颈之一。I&O领导者应该设计他们的网络和存储子系统以减少 I/O 瓶颈,以便他们能够充分利用他们在GPU等专用计算硬件上的投资价值。为了减少GPU空闲时间,使用固态阵列或驱动器,或其他形式的非易失性存储或持久内存来优化预处理流水线变得越来越普遍。由于在训练阶段摄取的数据量很大,最好将这些数据集存储在共享存储中,以便组织可以独立扩展计算和存储环境。集中式存储还有助于进行版本控制,以便用户和应用程序可以在整个组织中处理单个一致的副本。较新的 NVMe SSD 可以改善与神经网络相关的低带宽和高延迟挑战。

  从AI的负载分析来看,高速的全NVMe闪存的分布式文件系统成为AI存储的最佳形态。

  AI存储的网络接口,毫无疑问必须采用RDMA技术,只有这样才能有效降低系统的时延。RDMA技术原来主要用在Infiniband(IB)网络上,但现在无损以太网也支持。但除了RDMA,IB还具有协议栈简单、处理效率高、管理简单等优点。与以太网的分层拓扑不同,InfiniBand 是扁平结构,这意味着每个节点都与所有其他节点直接连接。与 TCP/IP 网络协议相比,IB 采用基于信任和流量控制的机制来保证连接的完整性,并且数据包很少丢失。数据传输完毕后,接收端返回一个信号,指示缓冲区空间的可用性。因此,IB协议消除了由于原始数据包丢失而导致的重传延迟,从而提高了协议的性能。

  由于IB的固有优势,目前高端的AI存储,一般优选IB网络,这也可以从历年的全球TOP500超级计算榜单可以看出。

  

  根据2021年11月的全球TOP500超级计算榜单,InfiniBand连接了全球 10 大超级计算机中的 7 台,全球100大计算机中的65台。InfiniBand 已成为高性能计算系统的事实标准,被深度学习基础设施广泛采用,并且越来越多地用于超大规模云数据中心。

  InfiniBand 提供了许多关键优势。它是一个全传输卸载网络,这意味着所有网络操作都由网络管理,而不是由 CPU管理。它是最有效的网络协议,这意味着能够以更少的开销传输更多数据。InfiniBand 的延迟也比以太网低得多,最重要的是,它在网络内部集成了处理引擎,可加速深度学习和高性能计算的数据处理。这些是任何计算和数据密集型应用程序的关键技术优势。这就是为什么 InfiniBand 已成为高性能、科学和产品模拟的公认标准。

  

  随着GPU的能力越来越强,对带宽要求也愈来愈高。目前IB虽然已经有了400G NDR的产品,但是产品太新,性价比不高,从性价比角度考虑,200G HDR IB是目前高端AI存储的首选。

  200G HDR可以支持目前最高端的应用场景,比如脑映射。而且,现在的AI系统都是多GPU的,更高的速度,就可以支撑更多的GPU。这些因素,使得2022年,AI存储支持200G IB成为一个很大的优势。

  

  

  AI存储, 国外占优

  许多大型老牌供应商正在针对 AI 工作负载重新定位其分布式文件系统,同时我们还发现这个领域中涌现出多个新兴供应商。

  国外的一些存储公司,还针对AI推出AI一体机,其中比较有特色的是Pure Storage和DDN。

  Pure Storage的AI一体机叫AIRI,其早在2018年就发布,刚刚不久前发布了最新一代AIRI//S。

  

  其关键的AI存储采用自研的全闪Scale-out文件系统FlashBlade//S,采用自研NVMe盘,存储网络接口目前还是100G的RDMA以太网。

  

  Pure Storage的AI存储FlashBlade//S虽然相比上一代,存储介质从TLC转向QLC,性价比上更有优势,但可惜的网络接口依然是100G以太网,而且也不支持Nvidia的GPUDirect Storage (GDS)。Pure Storage的首席技术官Rob Lee说,一项人工智能工作的总工作时间包括搜索源数据集,寻找所需的子集,提取它,然后将它发送到GPU上。搜索和提取过程可能要比数据传输到GPU的时间长得多,而FlashBlade/S缩短了这一时间,而GDS仅仅是拥有更快的数据传输时间,不支持GDS对整体时间影响不大。

  但是,作为专做HPC存储的DDN,其推出的AI一体机叫A3I,其关键的AI存储基于开源的Lustre文件系统,目前最新的高端型号的AI400X2,也是采用NVMe SSD,但存储网络接口采用了200G HDR InfiniBand,并且支持GDS。

  

  

  我们看到,DDN的AI存储优选推荐InfiniBand而不是流行的以太网技术,而且已经开始规模采用200G HDR IB接口。

  

  

  国产厂商,迎头赶上

  国产厂商,推出类似Pure Storage这样的AIRI通用AI一体机的不多,但推出AI存储的厂商就很多了。

  比如华为,就专门推出了针对HPDA的OceanStor Pacific系列。

  

  其中高端AI场景,就需要采用Pacific最高端的全闪型号Pacific 9950了。但从华为官网宣传的规格看,目前Pacific 9950虽然同时支持以太网和IB,但是最高速率还是100G。

  

  反而国内专门做高性能文件系统的初创公司焱融科技,最近发布的全闪分布式文件存储一体机焱融追光 F8000X 系列,率先支持200G IB双端口,令人眼前一亮。

  

  

  焱融追光F8000X AI存储,除了是国内自研存储中第一个支持 双端口200G HDR Infiniband接口外,还有其他什么特点呢?

  

  

  焱融追光,为“AI”而生

  从焱融科技的官网介绍看,追光F8000X系列,所有的特性都围绕AI场景而设计,可以说完全是一款为"AI"而生的专用存储。

  

  作为AI存储,性能是第一位的。追光 F8000X 搭载了第三代 AMD EPYC 计算平台(支持PCIe 4.0)和焱融高性能分布式文件存储系统 YRCloudFile ,采用全 NVMe SSD、InfiniBand 200G高速RDMA网络,性能表现强劲,可以充分榨干多GPU的带宽。

  软件方面,焱融追光 F8000X 从客户端到 Server 端做了全链路的优化(如提供Linux和Windows的高性能并发客户端),不仅能提供高 IOPS,还能提供更低的延迟,以及高带宽性能。在实际测试中焱融追光F8000X 每节点配置为两颗 CPU,32G X 8 内存,2块200Gbps HDR InfiniBand 网卡,存储节点(集群最少三节点起,这里只是为了方便,摊分到单节点看)测试数值如下:

  

  带宽性能

  

  IOPS 性能

  我们看到,结合 InfiniBand 强大的网络性能,追光 F8000X 取得了十分优异的性能测试数据。单个存储节点达到40GB/s 带宽、200万以上IOPS,80μs的时延,同时存储采用分布式架构,性能可以实现线性提升,在 6 存储节点时性能可达1000万 IOPS,210GB/s带宽, 在高负载情况下能够保持130μs以内的延迟。

  

  除了性能,AI存储也需要讲究成本。从前面的AI负载分析我们可以看到,AI的数据集是非常庞大的,而且需要长期保持。但是,对存储性能要求最高的只是在训练和推理阶段,这两个阶段采用全闪的AI存储是合适的,但是如果数据归档也用全闪,成本就不划算了。而对象存储,是最适合作为归档存储的。焱融追光系列虽然不支持S3访问,不是一个对象存储产品,但是它支持智能分层到第三方对象存储的方式,有效解决了成本的问题。用户可以选择其他厂商的对象存储,或者采用公有云,配合焱融追光AI存储,支撑AI所有阶段对数据的存储和处理要求。

  

  从AI的流程,我们也看到,训练需要准备大量的数据,数据准备的时间往往大于训练的时间,因此,缩短数据的加载时间,就能够大大缩短整体的时间。焱融追光系列,采用智能数据加载DataLoad技术来解决这个问题。

  DataLoad 具体是如何设计的呢?实际上,它的设计和 Tiering 是非常类似的,主要是场景有所不同。实际上 DataLoad 的实现几乎是能完整复用 Tiering(分层) 的实现。

  焱融追光的Tiering没有做物理切片。在不做物理切片的情况下,可以直接把 5GB 的数据文件关联到 YRCloudFile,S3 对象和 YRCloudFile 文件很直观地一一对应起来,这天然满足了 DataLoad 功能的用户需求和设计需求。而在做物理切片的情况下,一个 5GB 的对象需要先切成很多小块,然后才能再写回对象存储里。

  用户通过 YRCloudFile DataLoad 功能,将 S3 上的数据直接关联为 YRCloudFile 文件系统中的目录和文件,直接满足用户利用 S3 上已知数据的计算需求。

  比如用户在 S3 bucket 中已有 100 万个 object,现在要使用 YRCloudFile DataLoad 的话 S3 和文件系统的连接。DataLoad 会自动扫描 S3 bucket,根据 S3 object 的路径,在 YRCloudFile 中创建出对应的目录和文件,然后用户业务就可以像使用本地文件一样,使用这些 DataLoad 关联下来的 S3 数据集。

  焱融追光在实现 DataLoad 时,也做了充分的性能考虑。比如 DataLoad 在创建对象和文件的关联时,将其分为不同的阶段,比如扫描 S3 bucket 阶段、创建文件阶段、数据拉取阶段等,每个阶段都支持配置不同的策略,比如扫描 bucket 时,可以通过设置 pattern 去过滤需要的数据。比如在数据拉取时,默认配置为异步地、按需地拉取。

  另外,用户在使用 DataLoad 时,除了一开始建立起对象和文件的关联后,用户可能还需要实时感知 S3 bucket 中对象的变化,比如对象的新增和删除等。YRCloudFile DataLoad 实现了订阅机制,并适配了阿里云、腾讯云等各种云产商各异的订阅通知机制,对用户提供一致的订阅功能体验。

  

  最后一点,就是AI存储需要共享存储,而焱融追光软件就是焱融云自研的高性能文件系统YRCloudFile,它不仅支持通用的NFS和SMB访问,而且还有Window和Linux下的私有客户端,给胖客户端提供更好的单客户端性能。还有,现在的AI负载很多已经容器化了,因此CSI的支持也是必须的。焱融追光除了支持CSI标准接口外,还针对容器场景下的运维和监控做了很多增强,让用户使用起来更加方便。

  

  写在后面

  从上面的分析我们可以看到,AI存储高速增长,今年就达百亿美金规模。国外的AI存储发展较快,很多都联合NVIDIA推出了AI一体机,但后端的AI存储接口目前也没有超过200G IB。国内厂商虽然在AI一体机有所落后,但在AI存储这块却跟得非常紧,比如焱融科技推出的追光专用AI存储,围绕AI的整个流程进行了设计和优化,不仅在性能上能够充分榨干多个GPU的带宽,而且功能上可以还可以和第三方对象存储配合,兼顾成本和性能,完美解决AI不同阶段对存储的需求。

  END