AI原生时代如何提供可用、易用、高效的算力服务?

2026-04-03 11:24:59 来源: 科技日报 点击数:

科技日报记者 罗云鹏

近日,2026中关村论坛年会“全栈智能 全域推理:Token爆发元年的全场景大规模推理服务”专题研讨会上,商汤大装置首席架构师项铁尧系统阐述了商汤大装置对AI原生时代算力集群建设的前沿判断与实践路径——如何将软硬件能力真正转化为可用、易用、高效的算力服务。

项铁尧从底层技术视角切入,介绍Kubernetes(由Google开发的开源容器编排系统)正朝着AI方向发展。

随着动态资源分配(DRA)、工作负载API(Workload API)与网关API(Gateway API)三项核心特性的引入,Kubernetes逐渐从简单的容器编排工具,进化为AI时代的操作系统。这背后,其实是整个行业在加速从云原生集群时代向AI原生时代跃迁。

围绕上述转变过程,项铁尧重点介绍了商汤大装置前瞻打造的核心产品——AI算力池。

据了解,AI算力池面向AI原生时代全新算力服务需求,采用“三明治”水平分层架构,从底层高度优化的计算网络存储基础设施,到中间层全新的虚拟集群技术,再到上层涵盖开发机、训练平台、部署平台及智能体引擎(Agentic Engine)的完整平台即服务(PaaS)产品体系,以杜绝不同产品之间的资源孤岛问题。

在虚拟集群基础上,项铁尧进一步提出AI集群运行时(Runtime)产品概念。

“要快速搭建一个离线混部、训练推理混合使用的集群非常复杂,因为现在AI新的技术层出不穷,各种组件之间协同优化同样复杂。”项铁尧说,“为了解决这种难题,我们通过智能推荐、深度调优与版本锁定机制,帮助用户快速搭建复杂的在线、离线混部、训练推理混合使用集群,降低AI基础设施的使用门槛与运维复杂度。”

为进一步满足超大规模AI生产场景的极致性能需求,商汤大装置还自研了三大套件,其中高性能调度器支持复杂异构硬件的在离线混合调度;容错引擎解决超大规模训练中的不稳定性,实现故障自动检测与隔离;Agentic Engine针对不断涌现的Agent使用需求,进行深入优化,包括沙箱预热、快速启动、规划保持、状态快照等功能。

责任编辑:冷媚
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览