KTransformers打造全国产大模型方案

2025-11-20 21:19:50 来源: 科技日报 点击数:

科技日报记者 罗云鹏

记者11月20日获悉,趋境科技与清华大学共同开源的KTransformers,正以异构协同释放本地硬件潜力,通过开源能力帮助更多团队和组织用得起、调得动、融得进自己的业务中,逐步实现算力普惠。

据悉,月之暗面于11月6日正式发布Kimi-K2-Thinking模型后,KTransformers已完成对该模型的全面适配,单卡环境可完成推理任务,2卡环境可完成LoRA微调任务,大幅降低部署与定制化门槛。

同时,趋境科技已完成该模型在昇腾NPU上的全面适配,提供了完善的全国产化推理解决方案,为国产硬件生态与大模型落地搭建起高效桥梁。

KTransformers是一个高性能异构推理框架,专注于高效利用底层GPU、CPU、内存等多样化算力。在大模型推理中,它提出了面向CPU+GPU异构架构的MoE推理系统方案,通过系统级创新让GPU负责注意力和主干网络的高并行计算,CPU承担稀疏专家模块的推理任务,实现高效协同执行,让原本依赖昂贵多卡GPU的大模型,能在CPU参与的硬件环境中实现接近同等性能的推理体验。

10月,KTransformers与主流推理框架SGLang达成合作,双方架构合入同一分支。在Kimi-K2-1TB的模型推理任务中,用户仅需简单安装SGLang与KTransformers CPU内核,下载官方模型及量化权重,即可通过一条命令启动服务,且仅需单张消费级GPU+CPU。此次合作推动大模型推理向更高性能、更低成本的方向演进,助力其更广泛的产业落地。

此外,针对模型微调的核心需求,KTransformers与LLaMA-Factory深度集成,支持LoRA等轻量级微调方法,占用约41GB显存+2T内存,就能实现46.55token/s的微调吞吐量。

责任编辑:孙莹
网友评论
最热评论
没有更多评论了

抱歉,您使用的浏览器版本过低或开启了浏览器兼容模式,这会影响您正常浏览本网页

您可以进行以下操作:

1.将浏览器切换回极速模式

2.点击下面图标升级或更换您的浏览器

3.暂不升级,继续浏览

继续浏览