华为云Tokens服务全面接入384超节点

2025-08-28 19:46:09 来源: 科技日报 点击数:

科技日报记者 崔爽

8月27日,在第四届828 B2B企业节开幕式上,华为云宣布其Tokens(词元)服务全面接入CloudMatrix384超节点,通过xDeepServe架构创新,单芯片最高可实现2400TPS(每秒事务数)、50msTPOT(每输出token时间)的高吞吐、低时延性能,领先行业水平。

数据显示,2024年初中国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已突破30万亿,1年半的时间增长了300多倍,反映了人工智能应用规模的快速增长,也对算力基础设施的需求提出更大挑战。

今年3月,华为云推出基于MaaS(模型即服务)的Tokens服务。针对不同应用、不同场景的性能和时延要求,还提供在线版、进线版、离线版等多种规格,为大模型、Agent(智能体)等AI工具提供更为灵活、便捷、低成本的算力。

此次,华为云的Tokens服务正式接入CloudMatrix384,并通过384原生的xDeepServe框架再次实现吞吐量突破,从年初的1920TPS提升至2400TPS,TPOT仅为50ms(毫秒)。

据介绍,大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新。CloudMatrix384超节点以全新计算架构创新,突破性能瓶颈,构筑算力根基;CANN昇腾硬件使能,优化算子与高效通信策略,让云端算力能够以更高效的方式被调用和组合;弹性内存存储EMS打破AI内存墙,实现“以存强算”,释放了每颗芯片的算力;xDeepServe分布式推理框架则帮助超节点释放出更高效算力。

目前,华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu等主流大模型及versatile、Dify、扣子等主流Agent平台。

而在应用层,华为云已与超过100家合作伙伴携手深入行业场景,共建丰富的Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题。

以Token为动力的智能社会已经到来,华为云方面表示,将以系统级创新能力和全新的Tokens服务构筑先进算力,助力各行各业加速AI落地、加快智能化进程。

(主办方供图)

责任编辑:冷媚
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览