“围猎”英伟达H100

  近段时间以来,以 ChatGPT 为首的生成式 AI 席卷全球,技术升级带来的生产力巨大提升,也正在对各个产业带来革命性改变,甚至产业逻辑也需要被重估。

  而 AI 浪潮背后的 " 卖铲人 ",英伟达一举迈入了万亿美元市值俱乐部。

  英伟达最近一个财季的业绩数据同样令人吃惊。财报数据显示,英伟达第二财季收入为 135.07 亿美元,创下纪录新高,这使分析师给出的 110.4 亿美元预期显得极为保守。

  英伟达 2023 财年 Q2 营收数据

  整体来看,英伟达的业务规模基本达到去年同期的两倍,这几乎完全要归功于市场对其 AI 芯片的旺盛需求,无论是初创企业,还是打造生成式 AI 服务的科技巨头们都在疯狂抢购这些 AI 芯片。

  市场研究公司 Omdia 近日发布报告称,预计英伟达二季度用于 AI 和高性能计算应用的 H100 GPU 的出货量超过了 900 吨。并且预计其在未来几个季度的 GPU 销量将大致相同,因此英伟达今年将销售约 3600 吨重的 H100 GPU。

  并且还不止这些,还有 H800,以及上一代的 A100、A800 等 GPU 产品。因此,可以预计,随着英伟达从生成式 AI 热潮中获利,未来一年的出货量将会加快。

  据行业内部消息透露,2023 年英伟达 H100 的产量早已销售一空,现在交钱订购,至少要到 2024 年中才能拿到货。

  谁将获得多少 A100、H100 GPU,以及何时获得,都是硅谷当前最热门的话题。

  英伟达最大的客户们似乎也认可这一点。微软、亚马逊、谷歌和 Meta 等国际巨头最近发布截至 6 月的财季的财报时都暗示,它们有强烈意向继续在生成式 AI 能力上投入资金,尽管在其他领域的资本投资放缓。

  AI 教父 Sam Altman 就曾自曝,GPU 已经告急,希望用 ChatGPT 的用户能少一点。Sam 表示,受 GPU 限制,OpenAI 已经推迟了多项短期计划。

  据消息人士透露,中国的科技巨头百度、腾讯、阿里巴巴以及字节跳动公司今年向英伟达下达的交付订单金额已超过 10 亿美元,总共采购约 10 万张 A800 和 H800 芯片;明年交付的 AI 芯片价值更是达到 40 亿美元。

  不光是科技公司在排队购买 H100,沙特阿拉伯、阿联酋等中东国家也势头强劲,一次性就买了几千块 H100 GPU。其中,阿联酋阿布扎比技术创新研究所开发的 " 猎鹰 40B" 模型是近期开源社区中炙手可热的商用大模型,反映阿联酋在增强基础算力方面不遗余力。

  在一篇业内热转的《Nvidia H100 GPU:供需》文章中,作者也深度剖析了当前科技公司们对 GPU 的使用情况和需求。文章推测,小型和大型云提供商的大规模 H100 集群容量即将耗尽,H100 的需求趋势至少会持续到 2024 年底。

  正如英伟达 CEO 黄仁勋说:" 我们目前的出货量远远不能满足需求。"

  英伟达 GPU 芯片不光不愁卖,利润率还高得吓人。业内专家曾表示,英伟达 H100 的利润率接近 1000%。消息公布后,迅速引发了芯片战场上的热议。

  美国金融机构 Raymond James 在近期的一份报告中透露,H100 芯片成本仅约 3320 美元,但英伟达对其客户的批量价格仍然高达 2.5 万 -3 万美元,高达 1000% 的利润率导致 H100 几乎成为了有史以来 " 最赚钱 " 的一款芯片。

  这一点从季度财报中也能得到充分印证,英伟达 Q2 财季净利润高达 61.8 亿美元,同比上升 843%。据悉,英伟达最近一个财季的调整后营业利润率达到了 58%,这是至少十年来的最高水平,并且较其之前八个财季平均 39% 的营业利润率有大幅跃升。

  英伟达井喷式的业绩增长和长期展望表明,AI 需求并非昙花一现。巨大的市场空间,以及超乎想象的前景,吸引诸多厂商参与其中,将进一步刺激行业竞争。

  在此趋势下,AI 芯片的战役正愈演愈烈。

  AMD、Intel、IBM 等科技巨头以及新晋企业正陆续推出新的 AI 芯片,试图与英伟达 AI 芯片抗衡;谷歌、微软、亚马逊、阿里、百度等公司也纷纷布局自研芯片,以减少对外部供应商的依赖。

  AMD:GPU 市场的 " 二号玩家 "

  当前的 AI 芯片市场可以说是英伟达的天下,每一位挑战者想要动摇其根基都并非易事。AMD 作为英伟达的老对手,自然不会放任其独揽如此庞大且增速超快的市场。

  对于这位 GPU 市场的 " 二号玩家 ",大家都期待其能拿出撼动英伟达 " 算力霸主 " 地位的 " 终极武器 "。

  今年 6 月,备受业界瞩目的 AMD 发布了 Instinct MI300 系列产品。Instinct MI300 系列产品主要包括 MI300A、MI300X 两个版本,以及集合了 8 个 MI300X 的 Instinct Platform。

  针对 MI300A,AMD CEO 苏姿丰声称,这是全球首个为 AI 和 HPC 打造的 APU 加速卡,采用了 "CPU+GPU+ 内存 " 的一体化组合形式,拥有 13 个小芯片,总共包含 1460 亿个晶体管,24 个 Zen 4 CPU 核心,1 个 CDNA 3 图形引擎和 128GB HBM3 内存。

  Instinct MI300X 是一款直接对标英伟达 H100 芯片,专门面向生成式 AI 推出的加速器。该产品采用了 8 个 GPU Chiplet 加 4 个 I/O 内存 Chiplet 的设计,总共 12 个 5nm Chiplet 封装在一起,使其集成的晶体管数量达到了 1530 亿,高于英伟达 H100 的 800 亿晶体管,是 AMD 投产以来最大的芯片,可以加速 ChatGPT 等大模型应用。

  与英伟达的 H100 芯片相比,AMD Instinct MI 300X 的 HBM 密度是前者的 2.4 倍,带宽则为前者的 1.6 倍,理论上可以运行比 H100 更大的模型。

  此外,AMD 还发布了 "AMD Instinct Platform",集合了 8 个 MI300X,可提供总计 1.5TB 的 HBM3 内存。

  苏姿丰表示,随着模型参数规模越来越大,就需要更多的 GPU 来运行。而随着 AMD 芯片内存的增加,开发人员将不再需要那么多数量的 GPU,能够为用户节省成本。此外,她还透露,MI300X 将于今年第三季度向一些客户提供样品,并于第四季度量产。

  那么,性能优异的 MI300X 能否与 H100 一较高下呢?

  有业内专家表示,虽然本次 AMD 的 MI300X 采用了更大的 192GB HBM3,但英伟达的产品也在迭代,等未来 MI300X 正式发售时,英伟达可能已经推出了参数更强的产品。而且由于 AMD 未公布新品价格,采用 192GB HBM3 的 MI300X 成本可能与 H100 相比可能不会有显著的价格优势。

  其次,MI300X 没有 H100 所拥有的用于加速 Transformer 大模型的引擎,这也意味着用同样数量的 MI300X 将花费更长的训练时间。当前,用于 AI 训练的 GPU 供不应求,价格水涨船高,MI300X 的推出无疑将利于市场的良性竞争,但短期来看,AMD 的 MI300X 可能更多是作为客户买不到 H100 的 " 替代品 "。

  至顶智库首席分析也表示,尽管从 AMD 本次公开的性能参数来看,MI300X 在很多方面都优于英伟达的 H100,但并不是性能越高,就越多人用,这不是一个正向关系。英伟达深耕 GPU 领域多年,所拥有的市场认可度和产品稳定性都是 AMD 所不具备的。另外在软件生态的建立和开发方面,英伟达的 CUDA 经过十几年积累已构建其他竞争对手短时间难以逾越的护城河。

  虽然 AMD 目前也已经拥有了一套完整的库和工具 ROCm,也能完全兼容 CUDA,为 AMD 提供了说服客户迁移的条件和理由,但兼容只属权宜之计,只有进一步完善自己的生态才能形成竞争优势。未来,ROCm 需支持更多的操作系统,在 AI 领域开拓更广泛的框架,以此吸引更多的开发者,相较于硬件参数,软件方面的门槛和壁垒更高,AMD 需要较长的时间来完善。

  Cambrian-AI Research LLC 首席分析师 Karl Freund 在《福布斯》杂志的最新报道中也指出,与英伟达的 H100 相比,MI300X 面临着一些挑战。

  一方面,英伟达 H100 已满载出货,而 MI300X 尚处于 " 襁褓之中 ";其次,在 AI 产业里,英伟达具有最大的软件生态系统和最多的研究人员,而 AMD 的软件生态没有那么完善。并且,AMD 还未公开任何基准测试,而训练和运行 AI 大模型不仅仅取决于 GPU 性能,系统设计也尤为重要。

  至于 MI300X 在内存上的优势,Karl Freund 认为,英伟达也将提供具备相同内存规格的产品,因此这不会成为绝对优势。

  综合来看,AMD 想要撼动如日中天的英伟达,并非易事。

  不过,不可否认的是,虽然短期内英伟达的 "AI 王座 " 难以撼动,但 MI300X 依旧是英伟达 H100 的有力竞争者,MI300X 将成为除了英伟达 H100 以外的 " 第二选择 "。

  从长远来看,对于英伟达而言,AMD 也是值得警惕的竞争对手。

  Intel:争夺 AI 算力市场宝座

  众所周知,目前 GPU 资源紧缺,英伟达的 100 系列在国内禁售,而百模大战之下算力的需求还在飙升。对于中国市场而言,当前急需 AI 芯片 " 解渴 ",对于英特尔而言,眼下正值算力紧缺的窗口期,也是进攻的绝佳时机。

  今年 7 月,英特尔面向中国市场推出了 AI 芯片 Habana Gaudi 2,直接对标英伟达 GPU 的 100 系列,欲争夺 AI 算力市场的宝座。

  在发布会现场,英特尔直接将 Gaudi 2 和英伟达的 A100 进行比较,其野心可见一斑。根据英特尔公布的数据,Gaudi 2 芯片是专为训练大语言模型而构建,采用 7nm 制程,有 24 个张量处理器核心。从计算机视觉模型训练到 1760 亿参数的 BLOOMZ 推理,Gaudi 2 每瓦性能约 A100 的 2 倍,模型训练和部署的功耗降低约一半。

  英特尔执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 表示,在性能上,根据机器学习与人工智能开放产业联盟 ML Commons 在 6 月底公布的 AI 性能基准测试 MLPerf Training 3.0 结果显示,Gaudi 2 是除了英伟达产品外,唯一能把 MLPerf GPT 3.0 模型跑起来的芯片。

  随着大模型的日新月异,英特尔在近几个月内围绕着 Gaudi 2 继续进行优化。

  据介绍,相比 A100,Gaudi 2 价格更有竞争力,且性能更高。接下来采用 FP8 软件的 Gaudi 2 预计能够提供比 H100 更高的性价比。

  事实上,去年英特尔就已经在海外发布了 Gaudi 2,此次在中国推出的是 " 中国特供版 "。

  英特尔强调,目前在中国市场上,英特尔已经和浪潮信息、新华三、超聚变等国内主要的服务器厂商合作。Sandra Rivera 表示:" 中国市场对人工智能解决方案的需求非常强劲,我们正在与几乎所有传统客户洽谈。云服务提供商、通信服务提供商都是企业客户,因此对人工智能解决方案有着强烈的需求。"

  另一方面,在产品路线上,英特尔近年一直强调 XPU,即多样化、多组合的异构计算。在 AI 相关的产品线上,既有集成 AI 加速器的 CPU 处理器、有 GPU 产品,以及 Habana Gaudi 系列代表的 ASIC 类型 AI 芯片。

  大模型的火热还在持续拉动 AI 芯片的需求。

  据了解,英特尔的 Gaudi 2 处理器自 7 月份推出以来销量一直强劲,英特尔首席财务官 David Zinsner 在早些时候的一次会议上表示,已经看到越来越多的客户寻求其 Gaudi 芯片作为供应短缺的处理器的替代品。

  Gaudi 是一个人工智能加速的专属产品。在英特尔产品里,Gaudi 是针对大模型工作负载中性能最佳、最优的一个产品。据 Sandra Rivera 表示:" 明年我们还会有下一代产品 Gaudi 3 发布。在 2025 年的时候,我们会把 Gaudi 的 AI 芯片跟 GPU 路线图合二为一,推出一个更整合的 GPU 的产品。"

  日前,英特尔在旧金山举行的 "Intel Innovation" 盛会上透露,下一代使用 5nm 工艺打造的 Gaudi 3 将在性能方面大幅提升。其中,BF16 下的性能提升了四倍、计算能力提升了 2 倍、网络带宽的 1.5 倍以及 HBM 容量的提升 1.5 倍。

  展望未来,在 Gaudi 3 之后, 英特尔计划推出一个代号为 Falcon Shores 的继任者。

  关于 Falcon Shores,英特尔没有披露太多细节。但按照其最初规划,英特尔会于 2024 年推出 Falcon Shores 芯片、原计划为 "XPU" 设计,即集成 CPU 和 GPU。但在上个月的财报会上,英特尔调整了 Falcon Shores 的计划,并随后将其重新定位为独立 GPU,并将于 2025 年发布。

  整体来看,Gaudi 系列作为英特尔 AI 的一艘旗舰,外界也拭目以待 Gaudi 2 在实际应用中的性能表现和算力实力。从硬件迭代到软件生态,AI 芯片的竞争故事还将继续。

  IBM:模拟 AI 芯片,引领行业趋势

  人工智能的未来需要能源效率方面的新创新,从模型的设计方式到运行模型的硬件。

  IBM 最近公布了一款新的模拟 AI 芯片,据称其能效比当前业界领先的英伟达 H100 高出 14 倍,这款新芯片旨在解决生成式人工智能的主要问题之一:高能耗。这意味着在相同的能量消耗下,它能够完成更多的计算任务。

  这对于大型模型的运行来说尤为重要,因为这些大型模型通常需要更多的能量来运行。IBM 的这款新芯片有望缓解生成式 AI 平台企业的压力,并可能在未来取代英伟达成为生成式 AI 平台的主导力量。

  这是由于模拟芯片的构建方式造成的。这些组件与数字芯片的不同之处在于,数字芯片可以操纵模拟信号并理解 0 和 1 之间的灰度。数字芯片在当今时代应用最广泛,但它们只能处理不同的二进制信号,在功能、信号处理和应用领域也存在差异。

  IBM 声称其 14nm 模拟 AI 芯片每个组件可以编码 3500 万个相变存储设备,可以建模多达 1700 万个参数。同时,该芯片模仿了人脑的运作方式,微芯片直接在内存中执行计算,适用于节能语音识别和转录。

  IBM 在多个实验中展示了使用这种芯片的优点,其中一个系统能够以非常接近数字硬件设置的准确度转录人们说话的音频。此外,语音识别速度也得到了显著提升,提高了 7 倍。这对于许多需要实时响应的应用场景,如语音助手和智能音箱等,将带来更加顺畅的用户体验。

  IBM 这款模拟 AI 芯片的发布,标志着模拟芯片成为人工智能领域的新趋势。通过集成大量的相变存储单元,该芯片能够实现更高效的计算和能效。随着技术的不断发展,预计未来模拟芯片有望成为人工智能领域的新趋势,成为推动人工智能技术发展的核心驱动力。

  总之,IBM 的新型模拟 AI 芯片有望为生成式 AI 领域带来重大突破。英伟达 GPU 芯片是为当今许多生成式 AI 平台提供动力的组件。如果 IBM 迭代该原型并为大众市场做好准备,它很可能有一天会取代英伟达的芯片成为当前的中流砥柱。

  SambaNova:新型 AI 芯片,挑战英伟达

  高端 GPU 持续缺货之下,一家要挑战英伟达的芯片初创公司成为行业热议焦点。

  这家独角兽企业 SambaNova 刚发布的新型 AI 芯片 SN40L,该芯片由台积电 5nm 工艺制造,包含 1020 亿晶体管,峰值速度 638TeraFLOPS,高达 1.5T 的内存,支持 25.6 万个 token 的序列长度。

  与主要竞品相比,英伟达 H100 最高拥有 80GB HBM3 内存,AMD MI300 拥有 192GB HBM3 内存。SN40L 的高带宽 HBM3 内存实际比前两者小,更多依靠大容量 DRAM。

  SambaNova CEO Rodrigo Liang 表示,虽然 DRAM 速度更慢,但专用的软件编译器可以智能地分配三个内存层之间的负载,还允许编译器将 8 个芯片视为单个系统。

  除了硬件指标,SN40L 针对大模型做的优化还有同时提供密集和稀疏计算加速。

  Gartner 分析师认为,SN40L 的一个可能优势在于多模态 AI。GPU 的架构非常严格,面对图像、视频、文本等多样数据时可能不够灵活,而 SambaNova 可以调整硬件来满足工作负载的要求。

  相比其他芯片供应商,SambaNova 业务模式也比较特别,芯片不单卖,而是出售其定制技术堆栈,从芯片到服务器系统,甚至包括部署大模型。

  Rodrigo Liang 指出,当前行业标准做法下运行万亿参数大模型需要数百枚芯片,我们的方法使总拥有成本只有标准方法的 1/25。

  根据 Rodrigo Liang 的说法,8 个 SN40L 组成的集群总共可处理 5 万亿参数,相当于 70 个 700 亿参数大模型。全球 2000 强的企业只需购买两个这样的 8 芯片集群,就能满足所有大模型需求。

  目前,SambaNova 的芯片和系统已获得不少大型客户,包括世界排名前列的超算实验室,日本富岳、美国阿贡国家实验室、劳伦斯国家实验室,以及咨询公司埃森哲等。

  云服务商自研 AI 芯片,摆脱英伟达

  当下,英伟达还是当之无愧的 "AI 算力王者 ",A100、H100 系列芯片占据金字塔顶尖位置,是 ChatGPT 这样的大型语言模型背后的动力来源。

  然而,不管是为了降低成本,还是减少对英伟达的依赖、提高议价能力,包括谷歌、亚马逊、微软、特斯拉、Meta、百度、阿里等在内的科技巨头们也都纷纷下场自研 AI 芯片。

  以微软、谷歌、亚马逊三巨头为例来看,据不完全统计,这 3 家公司已经推出或计划发布了 8 款服务器和 AI 芯片。

  在这场 AI 芯片竞赛中,亚马逊似乎占据了先机,已拥有两款 AI 专用芯片——训练芯片 Trainium 和推理芯片 Inferentia。2023 年初,专为人工智能打造的 Inferentia 2 发布,将计算性能提高了三倍,加速器总内存提高了四分之一,吞吐量提高了四分之一,延迟提高了十分之一。Inf2 实例最多可支持 1750 亿个参数,这使其成为大规模模型推理的有力竞争者。

  而早在 2013 年,谷歌就已秘密研发一款专注于 AI 机器学习算法的芯片,并将其用在内部的云计算数据中心中,以取代英伟达的 GPU。2016 年 5 月,这款自研芯片公诸于世,即 TPU。

  2020 年,谷歌实际上已在其数据中心部署了人工智能芯片 TPU v4。不过直到今年 4 月 4 日,谷歌才首次公开了技术细节:相比 TPU v3,TPU v4 性能提升 2.1 倍。基于 TPU v4 的超级计算机拥有 4096 块芯片,整体速度提高了约 10 倍。谷歌称,对于类似大小的系统,谷歌能做到比 Graphcore IPU Bow 快 4.3-4.5 倍,比英伟达 A100 快 1.2-1.7 倍,功耗低 1.3-1.9 倍。

  目前,谷歌已将负责 AI 芯片的工程团队转移到了谷歌云,旨在提高谷歌云出售 AI 芯片给租用其服务器的公司的能力,从而与更大的竞争对手微软和亚马逊云科技相抗衡。虽然英伟达提供的 GPU 算力优势在前,但引爆本次 AI 的两位 " 大拿 "OpenAI、Midjourney 的算力系统采购的并非英伟达的 GPU,而是用了谷歌的方案。

  相比之下,微软在更大程度上依赖于英伟达、AMD 和英特尔等芯片制造商的现成或定制硬件。

  不过,据 The Information 报道,微软也正在计划推出自己的人工智能芯片。

  了解该项目的知情人士称,微软早在 2019 年就开始在内部开发代号为 " 雅典娜 " 的芯片,这些芯片已经提供给一小批微软和 OpenAI 员工,他们已经在测试这项技术。微软希望这款芯片的性能比其斥资数亿美元从其他供应商侧购置的芯片性能更优,这样就可以为价值高昂的人工智能工作节省成本。

  据悉,这些芯片是为训练大语言模型等软件而设计,同时可支持推理,能为 ChatGPT 背后的所有 AI 软件提供动力。另据一位知情人士透露,微软的 AI 芯片规划中囊括了雅典娜芯片的未来几代产品,最初的雅典娜芯片都将基于 5nm 工艺生产,可能在明年进入大规模生产阶段。

  今年 5 月,微软还发布了一系列芯片相关招聘信息,正在为 AISoC(人工智能芯片及解决方案)团队寻找一名首席设计工程师。据称,该团队正在研究 " 能够以极其高效的方式执行复杂和高性能功能的尖端人工智能设计 "。换句话说,微软某种程度上已把自己的未来寄托在人工智能开发机构 OpenAI 的一系列技术上,想要制造出比现成的 GPU 和相关加速器更高效的芯片来运行这些模型。

  与此同时,Meta 公司披露其正在构建首款专门用于运行 AI 模型的定制芯片—— MTIA 芯片,使用名为 RISC-V 的开源芯片架构,预计于 2025 年问世。

  另一边,随着美国对高性能芯片出口限制措施不断加强,英伟达 A100、H100 被限售,A800、H800 严重缺货,国产 AI 芯片肩负起填补市场空缺的重要使命。

  目前,包括华为、阿里、百度昆仑芯、壁仞科技、寒武纪、天数智芯、瀚博半导体等也在 GPU 赛道发力,取得一定成绩。不过需要重视的是,尽管国产 GPU 在价格方面有一定优势,但在算力和生态方面,仍然与英伟达存在差距。

  整体来看,当英伟达的一些主要客户开始自己开发 AI 芯片,无疑会让英伟达面临更为激烈的竞争。