科技日报记者 华凌
7月25日,2025(第二届)产融合作大会举行。会上,浪潮存储发布推理加速存储AS3000G7,有效破解KV Cache重复计算带来的算力和时延损耗难题,为大模型推理场景提供突破性解决方案,加速推动大模型在金融、科研等领域的规模化落地。
IDC数据显示,智能算力规模在未来5年增长1.7倍,用于推理的工作负载将从2023年的40%上升到2027年的70%以上。然而,当前大模型推理仍然需要借助GPU服务器来实现,而GPU服务器,也是整个大模型落地中最昂贵的投资。因此,充分发挥GPU服务器的利用率来提升大模型推理效率是关键,推理效率的高低直接决定大模型从“实验室”到“生产线”的落地速度。
现场,浪潮存储营销总监张业兴发表题为《融存智用 运筹新数据——浪潮存储金融解决方案和实践》的主题演讲,并表示,浪潮存储AS3000G7可存储所有KV Cache及多轮对话结果。其创新架构通过将KV Cache从GPU写入本机内存,再经高速网络缓存至AS3000G7,下轮对话时按需拉取缓存无须重新计算,彻底实现“以存代算”,显著节省算力消耗并提升资源利用率。
此次大会由中国信息通信研究院主办。
(受访者供图)