华为首次展出“算力核弹”真机

华为首次展出“算力核弹”真机，AI算力迎来新变革

在当今数字化浪潮中，人工智能（AI）技术飞速发展，算力作为其核心支撑，成为了科技领域竞争的焦点。7月26日，在世界人工智能大会（WAIC 2025）的现场，华为首次展出了昇腾384超节点真机，这款被业界称为“算力核弹”的设备一经亮相，便引发了全球科技界的高度关注。

昇腾384超节点的出现，源于大模型时代对算力的极致追求。传统的计算架构在面对千亿级参数模型的训练与推理任务时，逐渐暴露出诸多局限性，难以满足日益增长的需求。华为凭借其深厚的技术积累和创新精神，大胆探索，提出了全新的解决方案。它首创将384颗昇腾NPU和192颗鲲鹏CPU通过全新高速网络MatrixLink进行全对等互联，从而构建成一台超级“AI服务器”。这种创新的架构设计，彻底打破了传统以CPU为中心的冯诺依曼架构，也就是“主从架构”的束缚。在传统架构中，数据的传输和处理需要经过多个中转环节，这不仅降低了效率，还增加了延迟。而华为的“全对等架构”则通过高速互联总线的关键突破，将总线从服务器内部扩展到整机柜，甚至跨机柜，实现了CPU、NPU、DPU、存储和内存等资源的全部互联和池化。这就好比构建了一条信息高速公路，让各个组件之间能够直接、快速地进行数据交互，极大地提升了算力的密度和互联带宽。

从硬件规模来看，昇腾384超节点由12个计算柜和4个总线柜组成，其算力总规模高达300Pflops，相比英伟达的NVL72提升了1.7倍，展现出了强大的计算能力。网络互联总带宽达269TB/s，比英伟达NVL72提升107%，这意味着数据在各个组件之间的传输速度更快，能够更高效地支持大规模的数据处理和模型训练。内存总带宽达1229TB/s，比英伟达NVL72提升113%，有效避免了在处理大模型时可能出现的内存瓶颈问题，使得系统能够更加流畅地运行复杂的任务。单卡推理吞吐量更是跃升到2300Tokens/s，能够快速地对各种数据进行分析和处理，为AI应用的高效运行提供了有力保障。

昇腾384超节点在实际应用中的表现也十分出色。在性能测试中，在昇腾超节点集群上，LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上。对于通信需求更高的Qwen、DeepSeek等多模态、MoE模型，性能提升可达3倍以上，较业界其他集群高出1.2倍，在行业中处于领先地位。此外，昇腾超节点还通过最佳负载均衡组网等方案，能够进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群。这一扩展能力为未来更大规模的模型演进提供了坚实的基础，使得它能够适应不断发展的AI技术需求，为科研人员和企业提供更强大的算力支持。

除了强大的性能和扩展性，昇腾384超节点还在散热等方面采用了先进的技术。384颗芯片在运行过程中会产生大量的热量，如果不能及时有效地散热，将会影响设备的性能和稳定性。华为采用了液冷散热技术，通过特殊设计的导热垫紧贴芯片表面，利用特殊材料的高导热性能，将芯片产生的热量快速导出，确保设备在高效运行的同时保持稳定的温度。这项散热技术经过了长达十年的研究，由全球86个实验室共同攻关，才成功解决了“芯片抱团取暖”的难题，为昇腾384超节点的稳定运行提供了可靠的保障。

在软件生态方面，华为也在积极布局。它致力于打造开源开放的软硬件生态，将几万种AI算子精简到几百个核心算子，让开发者能够更加便捷地使用昇腾384超节点进行开发。这不仅降低了开发门槛，还能够吸引更多的开发者参与到AI应用的开发中来，推动AI技术的创新和发展。目前，国内头部企业已经开始使用昇腾384超节点进行核心大模型的训练，华为还派出专家团队驻场，为客户提供全方位的技术支持和服务，确保客户能够充分发挥设备的性能优势。

华为首次展出“算力核弹”真机

车圈原创更多>>