华为首次展出“算力核弹”真机,AI算力迎来新变革
在当今数字化浪潮中,人工智能(AI)技术飞速发展,算力作为其核心支撑,成为了科技领域竞争的焦点。7月26日,在世界人工智能大会(WAIC 2025)的现场,华为首次展出了昇腾384超节点真机,这款被业界称为“算力核弹”的设备一经亮相,便引发了全球科技界的高度关注。
昇腾384超节点的出现,源于大模型时代对算力的极致追求。传统的计算架构在面对千亿级参数模型的训练与推理任务时,逐渐暴露出诸多局限性,难以满足日益增长的需求。华为凭借其深厚的技术积累和创新精神,大胆探索,提出了全新的解决方案。它首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink进行全对等互联,从而构建成一台超级“AI服务器”。这种创新的架构设计,彻底打破了传统以CPU为中心的冯诺依曼架构,也就是“主从架构”的束缚。在传统架构中,数据的传输和处理需要经过多个中转环节,这不仅降低了效率,还增加了延迟。而华为的“全对等架构”则通过高速互联总线的关键突破,将总线从服务器内部扩展到整机柜,甚至跨机柜,实现了CPU、NPU、DPU、存储和内存等资源的全部互联和池化。这就好比构建了一条信息高速公路,让各个组件之间能够直接、快速地进行数据交互,极大地提升了算力的密度和互联带宽。
从硬件规模来看,昇腾384超节点由12个计算柜和4个总线柜组成,其算力总规模高达300Pflops,相比英伟达的NVL72提升了1.7倍,展现出了强大的计算能力。网络互联总带宽达269TB/s,比英伟达NVL72提升107%,这意味着数据在各个组件之间的传输速度更快,能够更高效地支持大规模的数据处理和模型训练。内存总带宽达1229TB/s,比英伟达NVL72提升113%,有效避免了在处理大模型时可能出现的内存瓶颈问题,使得系统能够更加流畅地运行复杂的任务。单卡推理吞吐量更是跃升到2300Tokens/s,能够快速地对各种数据进行分析和处理,为AI应用的高效运行提供了有力保障。
昇腾384超节点在实际应用中的表现也十分出色。在性能测试中,在昇腾超节点集群上,LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上。对于通信需求更高的Qwen、DeepSeek等多模态、MoE模型,性能提升可达3倍以上,较业界其他集群高出1.2倍,在行业中处于领先地位。此外,昇腾超节点还通过最佳负载均衡组网等方案,能够进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群。这一扩展能力为未来更大规模的模型演进提供了坚实的基础,使得它能够适应不断发展的AI技术需求,为科研人员和企业提供更强大的算力支持。
除了强大的性能和扩展性,昇腾384超节点还在散热等方面采用了先进的技术。384颗芯片在运行过程中会产生大量的热量,如果不能及时有效地散热,将会影响设备的性能和稳定性。华为采用了液冷散热技术,通过特殊设计的导热垫紧贴芯片表面,利用特殊材料的高导热性能,将芯片产生的热量快速导出,确保设备在高效运行的同时保持稳定的温度。这项散热技术经过了长达十年的研究,由全球86个实验室共同攻关,才成功解决了“芯片抱团取暖”的难题,为昇腾384超节点的稳定运行提供了可靠的保障。
在软件生态方面,华为也在积极布局。它致力于打造开源开放的软硬件生态,将几万种AI算子精简到几百个核心算子,让开发者能够更加便捷地使用昇腾384超节点进行开发。这不仅降低了开发门槛,还能够吸引更多的开发者参与到AI应用的开发中来,推动AI技术的创新和发展。目前,国内头部企业已经开始使用昇腾384超节点进行核心大模型的训练,华为还派出专家团队驻场,为客户提供全方位的技术支持和服务,确保客户能够充分发挥设备的性能优势。