浪潮信息面向智能体的AI计算系统创国内大模型最快Token生成速度

2025-09-29 14:59:20 来源: 科技日报点击数：

科技日报记者操秀英

在近日举办的2025人工智能计算大会上，浪潮信息宣布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型Token（文本处理中的最小单位）生成速度仅需8.9毫秒，创造国内大模型最快Token生成速度。最新发布的元脑HC1000超扩展AI服务器，则实现每百万Token成本首次击破1元。

浪潮信息高级副总裁刘军当天首次以首席AI战略官亮相。毫无疑问，刘军的这一新身份，释放了浪潮信息聚焦AI方向、冲刺“卓越领先AI公司”的战略信号，凸显AI在企业发展中的核心地位。

刘军说，浪潮信息对AI计算架构的持续创新，旨在解决智能体产业化面临的交互速度和Token成本两大瓶颈，为多智能体协同与复杂任务推理的规模化落地提供高速度、低成本的算力基础设施。

刘军阐述道，随着大模型Scaling Law（规模化法则）的持续进化，生成式AI正从“快思考”迈向“慢思考”，Scaling Law的重点也从预训练逐渐转向推理阶段。与此同时，Scaling Law的研究重心也从预训练阶段扩展至推理阶段的优化。这一技术路径的转变，不仅为智能体的大规模应用奠定了坚实基础，也标志着人工智能发展进入一个关键的新阶段——大模型、智能体等AI技术的产业化应用落地。

当前，以DeepSeek为代表的开源模型极大降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中，模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，Token成本决定了智能体的盈利能力。

浪潮信息此次发布的新型计算系统架构，正是为了提高模型的交互速度，降低Token成本。“浪潮信息的计算架构创新原则遵循‘以应用为导向、以系统为核心’，并非为技术而技术，而是针对大模型参数量增长带来的算力瓶颈，聚焦解决客户在速度、成本上的实际痛点。”刘军说。

元脑SD200基于创新研发的多主机低延迟内存语义通信架构，在单机内实现了64路本土AI芯片的高速统一互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。

为实现极低的通信延迟，元脑SD200采用精简高效的三层协议栈，原生支持多种内存语义操作，避免冗余数据拷贝，将基础通信延迟降至百纳秒级，硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的AI推理场景。

元脑HC1000超扩展AI服务器，基于全新开发的全对称DirectCom极速架构，无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量，推理成本首次击破1元/每百万Token，为智能体突破Token成本瓶颈提供极致性能的创新算力系统。

未来，智能体带来的推理算力需求将呈现出指数级的爆发式增长。刘军表示，计算架构将从通用向专用大模型架构演进，浪潮信息将通过软硬件协同设计与深度优化，持续推动AI计算架构的创新与突破，不断实现Token生成“提速降本”，积极促进大模型、智能体等人工智能技术与实体经济的深度融合，让人工智能成为千行百业的生产力和创新力。

当天会上，浪潮信息等30多家企业和机构共同发布《超节点智算应用“北京方案”》。该方案基于国内超节点平台，精准对接科研、具身智能、医疗、智造、教育等多元行业场景的智能体开发需求，为 “人工智能 +” 在各领域的深度落地提供实践路径。

（图片由活动主办方提供）

责任编辑：李梦一

网友评论

最热评论

没有更多评论了

浪潮信息面向智能体的AI计算系统创国内大模型最快Token生成速度

友情链接

抱歉，您使用的浏览器版本过低或开启了浏览器兼容模式，这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级，继续浏览