大模型国产化适配提速

2026-04-29 15:54:16 来源: 科技日报 点击数:

科技日报记者 罗云鹏 

近期,DeepSeek-V4预览版正式推出并开源,全面适配华为昇腾国产芯片。从底层算子到通信协议,从显存调度到框架适配,持续推进大模型与国产算力的原生协同,逐步摆脱对英伟达的依赖,这也标志着国产大模型与国产算力进入了“Day0适配”的新阶段。 

过去,大模型开发往往基于英伟达GPU完成训练,再向国产芯片做“后补式”迁移——成本高、周期长、性能损耗显著。而“Day0适配”的核心在于:模型从预训练阶段起便与底层算力深度绑定,通过“算力-模型协同优化”,实现开箱即用的高性能。 

据悉,商汤大装置已在基础设施层面完成这一技术路径的全链条验证,为国产算力规模化落地提供可复制经验,为多模态、世界模型与国产算力的“Day0适配”提供全栈技术支撑,并针对国产化芯片兼容难、异构芯片协同效率低、推理侧性能挑战大等现实痛点,商汤大装置通过全链路协同优化,形成了覆盖训练到推理的完整能力栈。 

此外,在性能深挖层面,通过多维并行策略、算子融合优化、FP8/INT8等低精度量化等技术突破,单实例平均吞吐可提升约2倍,峰值提升可达4倍;同时采用PD分离推理优化,将Prefill与Decode解耦部署并配以动态调度,大幅降低首Token时延与输出时延,有力保障大规模在线推理服务的SLA达成。 

值得一提的是,从当前产业进展来看,国产算力生态正从“可用”走向“可规模商用”。随着大模型训练与推理全流程跑通,产业拐点正在加速到来,同时多芯片并存将成为长期常态。

在这一背景下,决定竞争力的,不再是单一芯片性能,而是跨芯片适配、异构协同与全栈调度能力等,能够高效管理、调度和优化异构芯片运行环境的基础设施,将成为大模型产业落地的核心支撑。 

另悉,商汤大装置将持续推进“算力—模型协同进化”,以更高性能、更低成本、更快迭代和更强的生态整合能力,让国产算力高效运行中国模型,在性能、效果与成本之间实现最佳平衡。

责任编辑:李梦一
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览