面壁智能开源首个基于国产算力平台训练的端侧高效大模型

2026-05-25 14:45:52 来源: 科技日报 点击数:

科技日报记者 崔爽

近日,面壁智能联合清华大学、OpenBMB开源社区正式发布并开源其在低比特大模型训练方向的最新成果——BitCPM-CANN。这是首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型。

长期以来,内存的物理瓶颈是大模型走向规模化应用的挑战,内存正在成为全球AI供应链中最紧张的资源之一。在此背景下,BitCPM-CANN采用量化感知训练路线,迫使每一个bit发挥出最大信息密度和知识承载效率。同时,BitCPM-CANN提供的6倍显存优化,允许企业在不增加物理内存的情况下提升模型能力或服务密度。

值得一提的是,从最底层的量化算子、量化感知训练算法,到完整的并行策略和训练框架,BitCPM-CANN的整个训练链路均在华为昇腾上原生完成,包含0.5B、1B、3B、8B四个模型尺寸,与同尺寸MiniCPM-4全精度家族逐项对照评测,性能表现优异。这是昇腾平台上首个公开的、端到端完成1.58-bit训练并进行全精度对照评测的成果,且模型规模一次性推进至8B级别。

业内人士认为,BitCPM-CANN的发布与开源,实现了国产NPU、国产模型、国产训练框架的完整闭环,为端侧AI产业提供了直接可用的低比特模型方案。

责任编辑:王倩
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览