华为云超节点创新算力基础设施  推动行业AI应用开发落地

2025-05-17 15:44:16 来源: 科技日报 点击数:

科技日报记者 崔爽

“随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁,超节点架构的诞生不仅是技术的突破,更是以工程化创新开辟AI产业的新路径。”在5月16日召开的华为云AI峰会上,华为云副总裁黄瑾在会上指出,华为云CloudMatrix 384超节点具备MoE(混合专家模型)亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大技术优势,以系统架构创新重新定义新一代AI基础设施。

当前,大模型训练经历了从早期小模型在单卡训练、小参数大模型在单机训练,到现在MoE、长序列、多模态大模型都在AI集群上训练的演进过程。AI算力的瓶颈,从单卡算力的瓶颈到单机内总线带宽的瓶颈,再到现在集群间通信带宽的瓶颈,需求增长了1万倍。

然而过去的8年里,单卡硬件的算力增长40倍,但是节点内的总线带宽只增长9倍,跨节点的网络带宽只增长4倍,这使得集群网络通信成为当前大模型训练和推理的最大挑战。

面对这些挑战,黄瑾介绍,华为云推出采用全对等互联架构的CloudMatrix 384超节点。通过新型高速互联总线实现384张卡互联成为一个超级云服务器,最高提供300Pflops(每秒千万亿次浮点运算)的算力规模。

目前,基于CloudMatrix的超节点集群已经在芜湖、贵安等地规模上线,黄瑾进一步深入解读了六大技术创新点:MoE亲和架构,从“小作坊”到“超级工厂”;以网强算,双层网络破解“数据堵车”;以存强算,弹性内存改写“算存绑定”;长稳可靠,故障自愈的“AI医生”;朝推夜训,算力资源“错峰用电”;即开即用,“算力水电”普惠模式。

如何将AI技术价值转化为应用成果,是千行百业面临的核心课题。黄瑾强调,一直以来华为云持续推动昇腾AI云服务全面升级,通过打磨昇腾云的训练、推理的性能、可靠性和性价比,为中国乃至全球客户提供好用、易用的AI算力云服务。现已全面适配DeepSeek在内的160多个大模型,以云服务的方式,协助客户进行模型的开发,训练,托管和应用。昇腾AI云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业服务六百多家创新企业。

当下,企业唯有抓住AI时代机遇,才能抢占发展先机。黄瑾表示,面向智能世界,华为云致力于做好行业数字化的“云底座”和“使能器”,坚定打造AI算力底座,以安全、稳定、高质量、持续创新的AI云服务,赋能千行万业应用创新。

(主办方供图)

责任编辑:冷媚

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览