科技日报记者 罗云鹏
近日,商汤大装置SenseCore原生AI云平台(以下简称平台)通过中国信通院与泰尔实验室《算模数用-算力平台服务能力》权威测试,获业界最高等级5A卓越级认证,这也是业界首个获得5A认证的原生AI云平台。
本次评测涵盖算力运营、纳管、调度、监测及赋能等核心维度,平台各项核心指标表现优异,尤其在大规模算力纳管、高性能调度、弹性高容错、多芯片异构适配、训推一体等核心能力方面保持领先优势。
SenseCore平台覆盖用户管理、商品管理、账户体系与运营分析等全流程商业化运营体系。测试显示,平台商品上架/下架前后台实时同步,账单随资源消耗自动生成并动态更新,计费达到金融级准确性。租户可自助完成充值、消费与收支追溯,运营方可实时掌控算力供需与收益情况,为算力资源规模化流通提供可靠支撑。
据悉,平台通过智能策略实现异构算力资源的动态调度与优化分配,支持容器化任务及多品牌GPU资源的统一管理。测试中,成功完成8副本×8卡异构训练任务,并在GPU型号、物理拓扑、任务优先级、资源亲和性等多维策略下实现精准匹配。测试数据显示,模型有效训练时长比达到99.46%。同时支持网络故障容错、集合通信库容错和故障时模型训练状态实时保存,极大提升了大模型训练的稳定性。
平台具备异构资源的统一接入与管理能力,支持节点自动发现、算力规格灵活定义及多品牌GPU兼容。测试中,平台成功纳管英伟达与多款国产芯片,新增节点可自动识别并接入集群,实例创建时资源规格匹配准确,同时,用户可自定义算力型号,展现了强大的异构兼容能力与资源管理灵活性。
平台提供从集群、节点到实例的全粒度实时监控能力。测试显示,平台可动态追踪长周期训练任务状态,指标刷新实时准确;当资源使用率超过阈值时,告警系统可秒即时触发通知。同时,任务执行过程中数据全程可视,为大规模算力任务的稳定运行与故障排查提供全方位保障。

网友评论