看软件调优多重要:H100性能可达A100的8倍!
近日,英伟达官宣了一个新软件神器“TensorRT-LLM”,其提供LLM的优化能力,旨在推动AI推理性能的新性能极限。
H100性能可达A100的8倍
话不多少,先看成果。英伟达把这一神器的应用成果记录在了其自己的博客文章《NVIDIA TensorRT-LLM Supercharges Large Language Model Inference on NVIDIA H100 GPUs》中。
上图显示,在8月份进行的测试中,从运行普通TensorRT推理引擎的A100到运行相同TensorRT堆栈的H100,性能提升了4倍多一点。现在,基于TensorRT-LLM的优化,H100的性能现几乎相当于A100的8倍性能。顺便说一下,这个特殊的基准测试是GPT-J-6B使用可变长度I/O和CNN/DailyMail数据集完成的文本摘要。A100使用FP16数据分辨率,PyTorch工作在期望模式下,H100使用了FP8数据分辨率和被称为“in-flight”的批处理技术。
上图使用了Meta平台目前的最为高端的大模型: 700亿个参数的Llama-2 LLM,并使用相同的可变长度I/O和相同的CNN/DailyMail数据集处理文本摘要。在Llama 2上,与A100 GPU相比,TensorRT-LLM可以将H100推理性能提高4.6倍。
TensorRT-LLM软件优化能力体现在哪里
如今GAI大型语言模型由于其令人印象深刻的能力而变得更为流行,人工智能的研究范围在不断扩大。越来越多的行业正在探索其在业务上的落地。
作为当今主要的大模型硬件基础设施供应商的英伟达,其对探索人工智能新的性能突破,一直吊足了业界的胃口,例如对于明年是否可以交付的GH200。不过,当通过调整算法来从硬件中中获得更为好的性能,也是应是一种值得重视的做法。
英伟达超大规模和高性能计算副总裁Ian Buck曾表示:“LLM推理正变得越来越困难。,模型变得越来越复杂,随着它们变得越来越智能,它们也变得越来越大,这是很自然的,但随着它们的扩展超出了单个GPU的范围,必须在多个GPU上运行,这就成了一个问题。”
随着模型生态系统的迅速扩展,模型变得越来越大,功能也越来越多。这也意味着它们变得如此之大,以至于单个GPU无法容纳它们,必须将它们分开。开发人员和工程师必须手动将它们分开,或分割他们的工作负载并协调执行,以便实时获得响应。TensorRT-LLM通过“张量并行性”帮助解决了这个问题,它允许跨多个GPU进行大规模的高效推理。
除此之外,英伟达还在文章中介绍,单个模型可以同时用于各种看起来非常不同的任务。从聊天机器人中的简单问答响应到文档摘要或长代码块的生成,工作负载是高度动态的,输出的大小会变化几个数量级。这种多功能性可能会使批处理请求和有效地并行执行它们变得困难(这是服务神经网络的一种常见优化),这可能导致一些请求比其他请求完成得早得多。为了管理这些动态负载,TensorRT-LLM包括一种称为in-flight批处理的优化调度技术。这利用了这样一个事实,即LLM的整个文本生成过程可以分解为模型上的多个执行迭代。
使用实时批处理,TensorRT-LLM运行时将立即从批处理中驱逐完成的序列,而不是等待整个批处理完成后再转到下一组请求。然后,当其他请求仍在运行时,它开始执行新的请求。in-flight的批处理和额外的内核级优化可以提高GPU使用率,并在H100 Tensor Core GPU上的实际LLM请求基准测试中将吞吐量最低提高一倍,有助于降低能源成本并最大限度地降低TCO。
TensorRT-LLM是一个在NVIDIA Tensor Core GPU上运行的开源库,可提高LLM推理性能的特性包括令牌流、在线批处理、页面关注和量化。该软件还适配处理诸多头部大模型,如Meta Llama 2, OpenAI GPT-4, Falcon, Mosaic MPT, BLOOM等。例如,MosaicML在之上无缝地添加了它需要的特定特性,并将它们集成到它们的推理服务中。它还集成了TensorRT深度学习编译器,优化的内核以及预处理和后处理工具。通过一个开源的模块化Python API提高了易用性和可扩展性,用于定义、优化和执行新的架构,并随着LLM的发展而增强,并且可以轻松定制。对于开发人员,一个突出的特点是,开发人员不需要深入了解c++或NVIDIA CUDA就可使用。
英伟达表示,LLM正在重塑数据中心和人工智能培训在公司财务报表中的体现方式。借助TensorRT-LLM,英伟达的目标是让企业能够开发复杂的生成式人工智能,而不会导致总拥有成本激增。
英伟达的TensorRT-LLM目前可供在开发人员计划中注册的人员提前使用。更广泛的发布预计将在未来几周内发布。