开放加速AI服务器规范设计（2023）

时间：2023-09-03

　　当前语言大模型的参数量已达千亿以上，训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”（PetaFlops/s-day，PD），即每秒千万亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求，具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。下载链接：开放加速规范AI服务器设计指南（2023）《未来网络白皮书（2023）合集》1、未来网络白皮书（2023）：算网操作系统白皮书?2、未来网络白皮书（2023）：以网络IO为中心的无服务器数据中心白皮书?3、未来网络白皮书（2023）：光电融合服务定制广域网白皮书人工智能专题报告：智算中心—赋能AI产业化、产业AI化（2023）

　　中国超导体行业：立足科技前沿，满足能源战略需求（2023）行业报告：大模型推理算力知多少？艾瑞咨询：2023年中国AIGC产业全景报告体系化人工智能与大模型（2023）多样性算力：新一代计算架构超异构计算

　　聚力“高广深”打造先进算力网络

　　生成式AI：产业变革与机会（2023论坛合集）

　　400+份重磅ChatGPT专业报告（合集）

　　参数量为2457亿的源1.0大模型训练算力消耗为4095Peta-Flop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技企业加大投入生成式AI研发和应用的大背景下，配置高算力AI芯片的AI服务器需求也不断高涨。2019年OCP成立OAI小组，对更适合超大规模深度学习训练的AI加速卡形态进行了定义，目的是为了支持更高功耗、更大互连带宽AI加速卡的物理和电气形态，同时为了解决多元AI加速卡形态和接口不统一的问题。随后，为了进一步促进OAI生态的建立，OAI小组在OAM的基础上统一了AI加速卡基板OAI-UBB设计规范。OAI-UBB规范以8张OAM为一个整体，进一步定义了8xOAM的Baseboard的主机接口、供电方式、散热方式、管理接口、卡间互连拓扑、Scale Out方式。2019年底，OCP正式发布了OAI-UBB1.0设计规范，并随后推出了基于OAI-UBB1.0规范的开放加速硬件平台，无需硬件修改即可支持不同厂商的OAM产品。面向生成式AI的大模型算力系统的构建是一项复杂的系统工程，基于上述设计原则，以提高适配部署效率、提高系统稳定性、提高系统可用性为目标，进一步归纳总结出开放加速规范AI服务器的设计方法。

　　面向AIGC的计算系统交付模式不再是单一服务器，绝大多数情况最终部署的形式是包含计算、存储、网络设备，软件、框架、模型组件，机柜、制冷、供电、液冷基础设施等在内的一体化高集成度算力集群。（1）系统架构

　　为满足大模型训练模型参数规模的不断增大给模型训练带来的计算、存储、通信等方面的挑战，系统架构设计将赋能AI服务器节点和服务器集群以超大规模集群互连的大模型训练能力。OAM 是 OCP-OAI 小组制定的 AI加速模块接口规范，现已发布 OAM v1.5 规范，OAM 模块承担起单个 GPU 节点的 AI 加速计算能力，通过符合 UBB v1.5 base 规范的基板完成OAM间的 7P × 8 FC（Fully Connect，全互连）、6P × 8 HCM（Hybrid cubic mesh，混合立方互连）等高速互连拓扑实现多OAM数据低延时共享，利用RDMA网络部署等优化通过OSFP/QSFP-DD线缆实现对外拓展完成集群互连，突破了服务器集群在GPU计算资源、通信效率上的瓶颈，最大程度发挥OAM计算性能并降低通信带宽限制。OAM模块透过 PCIe Switch 通过4条PCIe x 16与高性能CPU建立起高速高带宽数据通道，并支持搭配32条RDIMM或LRDIMM内存，以最大程度的保障OAM与CPU之间的数据通信处理需求。

　　（2）OAM模块

　　OAM规范由OCP-OAI建立，定义了开放硬件计算加速模块的结构形态及互连接口，简化了OAM模块间高速通信链路互连，以此促进跨加速器通信的可扩展性。CPU与OAM 间的连接是透过 PCIe Switch 上行与CPU 4条PCIe x16带宽完成，极大程度增加CPU与OAM之间的数据通信数量，避免大数据量AI训练场景中CPU与OAM间数据通信出现瓶颈。支持节点内及节点间OAMP2P高速互连，OAM之间全互连拓扑改善了多OAM数据共享的延迟情况，为计算提供更高效的性能。（3）UBB基板

　　UBB基板能够承载支持8个OAM模块，形成一个AI加速计算子系统。UBB尺寸为16.7×21英寸，搭配UBB的机型可以放置于19英寸或21英寸机柜之中。UBB基板上的8个OAM模块通过可以通过OAM设计规范中的不同互连拓扑进行互连。UBB链路可以被拆分为×8链路，如果所有7个端口对配置成×16将无法完成对外拓展，因此为实现节点对外拓展形成互连集群，UBB基板将互连链路限制在×8以内，并默认设计端口1的后半部分（×8，通常称为1H端口）被用作对外拓展端口。4）硬件设计

　　UBB基板及OAM硬件设计应遵从UBB规范及OAM规范中的各项硬件规范、电气规范、时序规范等。遵从UBB规范中对OAM布局的规范。

　　OAM 互连拓扑损耗评估标准。对 OAM 互连所涉及的56Gbps PAM信号进行信号完整性设计，包括高速走线参考平面设计、高噪声电源区域走线、过孔stub及层面规划、走线间距、过孔间串扰控制等。OAM之间互连信号，整体损耗在基频处要求在30dB 以内，其中OAM 的 TX & RX 模组损耗需控制在 8dB 以内， C a b l e 拓扑要求QSFP-DD assembly 线缆损耗在5dB以内，PCB 损耗根据拓扑具体计算即可。

　　（5）散热设计

　　风冷散热：服务器节点风冷散热使用高效能风扇墙设计，并采用侧边防回流设计以增大相同风扇转速下的系统风量。采用导风罩设计的基础上增加OAM、CPU区域多风道隔离设计，能够结合区域感温能力实现分区散热。风扇全部支持热插拔，支持N+1转子冗余，支持风扇速度智能调节。针对UBB基板及OAM模块，进行散热器性能的热阻值参数设计。（6）系统管理

　　OAM模块的系统管理方面的设计包含提供资产信息、规范寄存器，并支持满足FW更新、带外监控要求功能。资产信息提供对OAM模块PN、SN、FW版本等信息的访问；寄存器信息提供对电压、功耗、温度、ECC状态及错误、外设错误、PCIe错误、Memory错误等信息的访问；带外监控提供温度、功耗、OAM模块信息、异常告警、OAM状态、卡复位等功能。（7）故障诊断

　　故障诊断功能包含OAM卡内部Uncorrect?able Error、PCIe 总线错误、ESL 连接异常、卡丢失等功能。通过BMC可监控系统PCIeSwitch模块、UBB基板及OAM模块的ECC状态及错误、外设错误、PCIe错误、Memory错误等。支持链路级别的高级故障诊断功能，通过全时监测PCIe Switch运行日志获取OAM卡故障信息。（8）软件平台

　　针对大模型开发过程中存在的调度难、部署慢、效率低、集群异常等问题，构建具备高性能、高可靠、可扩展的AI算力资源统一管理和人工智能作业调度平台，通过计算资源池化和容器化技术，屏蔽底层硬件差异，以标准算力模式面向用户直接提供计算资源，并通过适应性策略及敏捷框架对算力进行精准调度配给。本文来自“开放加速规范AI服务器设计指南（2023）”，以上分享了系统架构、OAM模块、UBB基板、硬件设计、散热设计、系统管理、故障诊断、软件平台；集群网络与存储、整机柜、液冷、制冷、运维等相关规范详情，请下指南原文。

　　下载链接：通用CPU性能基准测试研究综述（2023）2023全球半导体与集成电路产业发展研究专题报告中国智能汽车车载芯片发展研究报告《海光CPU+DCU技术研究报告合集（上）》?1、海光信息：国产巨无霸，引领“中国芯”?2、国产CPU厂商领军者，进入快速增长期?3、国产CPU领军，加速突破高端市场?4、国产CPU领军，受益于行业信创加速，成长空间广阔?5、国产高端处理器龙头，CPU+DCU齐赋能?6、国产微处理器产业的领军者"《海光CPU+DCU技术研究报告合集（下）》?1、达梦与海光：聚焦信创新股中的软硬龙头?2、计算机行业深度报告：曙光很近，海光不远，国产x86算力生态崛起?3、进击的国产CPU和GPU领航者?4、信创硬件龙头?5、行业信创龙头，国产 CPU 之光?6、专注服务器与数据中心，高端处理器企业乘风国产替代基于鲲鹏处理器的国产高性能计算集群实践算力大时代，AI算力产业链全景梳理(2023)AI算力行业深度：GPU全球格局分析（2023）人工智能行业报告：AI2.0、AI大模型、算力、AI赋能（2023）《华为产业链深度系列研究合集（2023）》液冷技术要点汇总《数据中心液冷技术合集（2023）》

　　1、电信运营商液冷技术白皮书（2023）

　　2、浸没式液冷数据中心运维白皮书

　　3、运营商力推液冷，中兴液冷技术领先（2023）

　　《2023年液冷技术白皮书汇总》

　　1、浸没式液冷数据中心热回收白皮书（2023） 2、数据中心绿色设计白皮书（2023）

　　《数据中心液冷技术合集》

　　1、集装箱冷板式液冷数据中心技术规范

　　2、浸没式液冷发展迅速，“巨芯冷却液”实现国产突破

　　3、两相浸没式液冷—系统制造的理想实践

　　4、AIGC加速芯片级液冷散热市场爆发

　　《液冷技术专题》

　　1、中国液冷数据中心发展白皮书

　　2、全浸没式液冷数据中心解决方案

　　3、浸没液冷数据中心规范

　　4、喷淋式直接液冷数据中心设计规范

　　5、单相浸没式直接液冷数据中心设计规范

　　《液冷服务器技术合集》

　　1、某液冷服务器性能测试台的液冷系统设计

　　2、浸没液冷服务器可靠性白皮书

　　3、天蝎5.0浸没式液冷整机柜技术规范

　　《Chiplet延续摩尔定律系列合集》1、Chiplet延续摩尔定律：先进制程替代之路2、Chiplet延续摩尔定律，芯片测试与封装有望获益3、半导体Chiplet引领封测行业新机遇4、破局后摩尔时代：Chiplet重塑半导体产业链价值5、后摩尔时代：Chiplet与先进封装UCIe白皮书（终版）Chiplet：延续摩尔定律的新技术，芯片测试与先进封装有望获益Chiplet：延续摩尔定律—先进制程替代之路《Chiplet接口和标准介绍》1、小芯片（Chiplet）接口标准.pdf2、为什么chiplet需要标准.pdf《全球OCP峰会Chiplet资料汇总》华为鲲鹏处理器介绍鲲鹏计算产业发展白皮书华为鲲鹏生态研究框架《“东数西算”技术分析合集》

　　《2023年液冷技术白皮书汇总》

　　1、浸没式液冷数据中心热回收白皮书（2023） 2、数据中心绿色设计白皮书（2023）2022年算力强基行动产品目录（2023）世界AI大会系列：数据为核，迈向多模态AI大模型时代

　　AI精华系列报告：AMD发布MI300，指引Chiplet等AI芯片新方向《CXL论坛：CXL全球厂商方案合集》1、CXL-Forum AMD技术方案.pdf?2、CXL-Forum CXL-Consortium技术方案.pdf3、CXL-Forum Elastics cloud技术方案.pdf?4、CXL-Forum Intel技术方案.pdf?5、CXL-Forum Marvell技术方案.pdf?6、CXL-Forum MemVerge技术方案.pdf?7、CXL-Forum Micron技术方案.pdf玄铁RISC-V处理器入门及实战《芯来科技RISC-V设计与实现合集》1、芯来科技：基于RISC-V的MCU软硬件解决方案2、芯来科技：高可靠高安全性RISC-V处理器设计与实现

　　本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

　　免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

　　温馨提示：

　　请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。