blog details

2024年8月30日

11

370

英伟达在最新MLPerf Inference测试中大放异彩,AI定制开发新突破

MLPerf Inference发布了最新测试结果,英伟达凭借全新的Blackwell架构芯片与谷歌和AMD在性能上展开激烈竞技,展示了显著的提升,刷新了部分任务的测试纪录。MLPerf是一个被广泛认可的测试套件,以架构中立、具有代表性和可重复的方式提供机器学习系统的性能基准测试,每年更新两次,是AI解决方案和AI系统开发的重要参考。

在这一轮测试中,英伟达带来了许多令人瞩目的结果。首次使用Blackwell架构,相较于上一代的H100 GPU,在Llama 2 70B模型上的性能提升高达4倍。针对每个数据中心的工作负载,H200相较于H100的性能提升高达1.5倍。同时,得益于软件改进,H200在此次提交中的表现相比上一轮预览版本提升了27%。

Blackwell架构亮点:性能大幅提升

Blackwell架构首次亮相是在今年3月的GTC大会上。这款尚未量产的最新芯片由2080亿个晶体管构成,采用台积电为英伟达量身定制的4nm工艺,是有史以来最大的GPU。Blackwell架构还配备了第二代Transformer引擎,并结合了新的Blackwell Tensor Core技术和TensorRT-LLM创新,能够实现快速且精确的FP4 AI推理。在本轮MLPerf测试中,B200 GPU在Llama 2 70B模型上的token吞吐量比H100 GPU高出了4倍。

MLPerf Inference发布了最新测试结果,英伟达最新的Blackwell架构芯片上场与谷歌、AMD同场竞技,展现出明显的性能提升,甚至刷新了部分任务上的测试纪录。

“新智元”

Blackwell架构的技术创新

Blackwell架构成功的关键之一在于使用4位浮点精度(FP4)进行模型运行。减少浮点数的位数一直是提高推理效率的常用手段。此前H100就引入了FP8精度,而这次Blackwell通过FP4精度在MLPerf提交中创下了新低。英伟达产品营销总监Dave Salvator指出,使用如此低精度数字的最大挑战是保持准确性,为此团队在软件方面进行了重大创新。此外,Blackwell的内存带宽几乎翻倍,达到8TB/s,而H200则为4.8TB/s。

英伟达此次在MLPerf Inference测试中的出色表现,为AI企业解决方案和AI定制开发带来了全新机遇。Blackwell架构的创新不仅展示了在高性能计算和机器学习上的领先地位,还为大型语言模型开发和AI应用定制服务提供了强大支持。借助这些突破性技术,企业将能够更高效地实现ChatGPT开发、Langchain框架集成等应用,推动AI技术在教培行业AI应用、税务AI咨询等领域的发展。

如有侵权,请联系删除。

Related Articles