科技日报记者 操秀英
在近日举办的2025人工智能计算大会上,浪潮信息宣布,基于元脑SD200超节点AI服务器,DeepSeek R1大模型Token(文本处理中的最小单位)生成速度仅需8.9毫秒,创造国内大模型最快Token生成速度。最新发布的元脑HC1000超扩展AI服务器,则实现每百万Token成本首次击破1元。
浪潮信息高级副总裁刘军当天首次以首席AI战略官亮相。毫无疑问,刘军的这一新身份,释放了浪潮信息聚焦AI方向、冲刺“卓越领先AI公司”的战略信号,凸显AI在企业发展中的核心地位。
刘军说,浪潮信息对AI计算架构的持续创新,旨在解决智能体产业化面临的交互速度和Token成本两大瓶颈,为多智能体协同与复杂任务推理的规模化落地提供高速度、低成本的算力基础设施。
刘军阐述道,随着大模型Scaling Law(规模化法则)的持续进化,生成式AI正从“快思考”迈向“慢思考”,Scaling Law的重点也从预训练逐渐转向推理阶段。与此同时,Scaling Law的研究重心也从预训练阶段扩展至推理阶段的优化。这一技术路径的转变,不仅为智能体的大规模应用奠定了坚实基础,也标志着人工智能发展进入一个关键的新阶段——大模型、智能体等AI技术的产业化应用落地。
当前,以DeepSeek为代表的开源模型极大降低了创新门槛,加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中,模型能力决定了智能体的应用上限,交互速度决定了智能体的商业价值,Token成本决定了智能体的盈利能力。
浪潮信息此次发布的新型计算系统架构,正是为了提高模型的交互速度,降低Token成本。“浪潮信息的计算架构创新原则遵循‘以应用为导向、以系统为核心’,并非为技术而技术,而是针对大模型参数量增长带来的算力瓶颈,聚焦解决客户在速度、成本上的实际痛点。”刘军说。
元脑SD200基于创新研发的多主机低延迟内存语义通信架构,在单机内实现了64路本土AI芯片的高速统一互连,单机可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用,实现多模型协同执行复杂任务。
为实现极低的通信延迟,元脑SD200采用精简高效的三层协议栈,原生支持多种内存语义操作,避免冗余数据拷贝,将基础通信延迟降至百纳秒级,硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的AI推理场景。
元脑HC1000超扩展AI服务器,基于全新开发的全对称DirectCom极速架构,无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量,推理成本首次击破1元/每百万Token,为智能体突破Token成本瓶颈提供极致性能的创新算力系统。
未来,智能体带来的推理算力需求将呈现出指数级的爆发式增长。刘军表示,计算架构将从通用向专用大模型架构演进,浪潮信息将通过软硬件协同设计与深度优化,持续推动AI计算架构的创新与突破,不断实现Token生成“提速降本”,积极促进大模型、智能体等人工智能技术与实体经济的深度融合,让人工智能成为千行百业的生产力和创新力。
当天会上,浪潮信息等30多家企业和机构共同发布《超节点智算应用“北京方案”》。该方案基于国内超节点平台,精准对接科研、具身智能、医疗、智造、教育等多元行业场景的智能体开发需求,为 “人工智能 +” 在各领域的深度落地提供实践路径。
(图片由活动主办方提供)