blog details

2024年10月10日

24

419

MIT和清华校友提出全新AI解决方案,优化Transformer节能性能

在大型语言模型开发中,能耗问题愈发突出,不仅引发全球关注,也成为ChatGPT开发的核心挑战。数据显示,2023年初,ChatGPT服务每日耗电量达到564兆瓦时,相当于18000个美国家庭的用电量。而谷歌的AI服务在最严峻的情况下,每年耗电可达29.3太瓦时,与整个爱尔兰的年消耗相等。要在提高推理能力的同时降低能耗,关键在于减少神经网络特别是浮点级别矩阵乘法的计算量。针对此问题,两位华人研究者提出了L-Mul算法,以整数加法器实现高精度浮点乘法。

相比FP8乘法,L-Mul算法在AI定制开发中展现出更高的精度和大幅降低的计算需求。实验结果显示,L-Mul操作在张量硬件中应用时,可将浮点数乘法的能耗降低多达95%,并且点积运算的能耗减少80%。这一方法无需额外训练可直接整合至现有模型中,甚至能在保持准确度的情况下替换掉注意力机制中的所有浮点乘法。这为AI系统开发提供了创新的节能方案,有助于提升效率。

更高的精度

L-Mul方法的核心在于通过优化张量算术运算的效率,独立于传统I/O和控制流的优化策略。这意味着杭州AI定制开发和浙江AI解决方案等需要高能效计算的企业,可通过全面整合I/O、控制和算术运算优化,获得更高性能的人工智能计算。

要在提升推理速度的同时降低大模型的能耗,减少神经网络所需的计算量才是关键。

“新智元”

更高性能的人工智能

为了验证L-Mul的实际应用价值,研究首先在各种AI应用定制服务任务中进行实验。选择Llama 3.1、Mistral和Gemma 2等基于Transformer的语言模型进行评估。实验表明,对于这些模型,L-Mul在几乎无损的条件下替换标准乘法,可保持高精度运行。在这些基准测试中,L-Mul展现出卓越的表现,尤其是在减少误差和提高处理效率方面。

在实际测试中,L-Mul不仅在语言模型的推理任务中降低了注意力计算的能耗,还恢复了相同程度的推理性能,对于税务AI咨询和教育行业AI解决方案等文本处理需求尤为适用。结果显示,L-Mul在12/14项基准测试中的表现都优于传统的fp8_e4m3,并将性能差距缩小至最低水平,平均与bf16的性能差异仅为0.07%。这标志着高效、低能耗AI计算的新篇章,为企业AI开发提供了新思路。

如有侵权,请联系删除。

Related Articles